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La presente invention est relative a une nouvelle famille de 
sequences nucleiques et de sequences proteiques deduites, qui presentent des motifs 
retroviraux endogenes humains complets ou partiels. 

L'invention est egalement relative a la detection et/ou a l'utilisation 
5 desdites sequences nucleiques et desdites sequences proteiques correspondantes, dans 
le cadre ^'applications diagnostiques, prophylactiques et therapeutiques, en particulier 
pour des neuropathologies a composante autoimmune comme la sclerose en plaques. 

L'invention concerne aussi l'obtention de sondes nucleiques double 
brins et simple brin anti-sens, de ribozymes, aptes a moduler la replication virale (T.R. 
10 Cech, Science, 1987, 236, 1532-1539 ; R.H. Symons, Trends Biochem. Set, 1989, 14, 
445-450) des molecules recombinantes correspondantes, et des anticorps associes. 

Les retrovirus sont des virus qui se repliquent uniquement en utili- 
sant la voie inverse du traitement classique de 1'information genetique. Ce processus, 
nomme transcription inverse, est medie par une ADN polymerase ARN dependante ou 
15 transcriptase reverse, codee par le gene pol Les retrovirus codent aussi au minimum 
pour deux genes additionnels. Le gene gag code pour les proteines du squelette, ma- 
trice, nucleocapside et capside. Le gene env code pour les glycoproteins d'enveloppe. 
La transcription retroviral est regulee par des regions promotrices ou " enhancers 
situees dans des regions hautement repetees ou LTR {Long Terminal Repeat) et qui 
20 sont presentes aux deux extremites du genome retroviral. 

Lors de Tinfection d'une cellule, la polymerase fait une copie ADN 
du genome ARN ; cette copie peut alors s'integrer dans le genome humain. Les retro- 
virus ne tuent pas les cellules qu'ils infectent, mais au contraire ameliorent souvent 
leur rapidite de croissance. Les retrovirus peuvent infecter des cellules germinales ou 
25 des embryons a un stade precoce ; ils peuvent dans ces conditions, integrer la lignee 
germinale et etre transmis par transmission mendelienne verticale, ce qui constitue la 
relation la plus etroite entre un hote et son parasite. Ces virus endogenes peuvent 
degenerer au cours des generations de Torganisme hote et perdre leurs proprietes ini- 
tiales. Cependant certains d'entre eux peuvent conserver tout ou partie de leurs pro- 
30 prietes ou des proprietes des motifs les composant, ou encore acquerir de nouvelles 
proprietes fonctionnelles presentant un avantage pour l'organisme hote, ce qui expli- 
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querait la preservation de leur sequence. 

L' existence de motifs endogenes presentant de longs cadres de 
lecture ouverts et/ou soumis a une forte pression de selection peut done etre indicatrice 
d'une fonction biologique preservee ou acquise, qui peut correspondre a un benefice 
5 pour l'organisme hote. Ces sequences retro virales peuvent aussi subir, au cours des 
generations, des modifications discretes qui vont etre a meme de reveiller certaines de 
leurs potentialites et engendrer ou favoriser des processus pathologiques. II est apparu 
recemment necessaire de faire le bilan et d' identifier ces sequences afin de pouvoir 
evaluer leur impact fonctionnel. 
10 Les sequences retrovirales endogenes humaines ou HERVs repre- 

sented une part importante du genome humain. Ces regions retrovirales se presentent 
sous plusieurs formes : 

- des structures retrovirales endogenes completes associant des 
motifs gag, pol et env, flanques de sequences nuclei ques repetees, qui montrent une 

15 analogie significative avec la structure LTR-gag-pol-env-LTR des retrovirus infec- 
tieux, 

- des sequences retrovirales tronquees ; par exemple, les retro- 
transposons sont prives.de leur domaine env et les retroposons ne possedent pas les 
regions env et LTR. 

20 Jusqu' a present P etude de ces regions du genome a ete negligee chez 

V Homme pour deux raisons essentielles : 

- T existence d' insertions/deletions qui peuvent decaler le cadre de 
\ lecture et de mutations qui modifient la sequence. Ces modifications entrainent des 

alterations de la structure et par consequent de la fonction biologique He ces motifs/ 

NX. v ■ " - <--/V , ^' // ■ 

25 \ v - 1' absence d' associations averees avec des pathologies humaines. 

0; La connaissance, recente de fragments significativement representa- 

tifs du genome humain et une orientation des recherches vers une etude struc- 

ture/fonction des motifs retroviraux endogenes, ont permis de preciser Tinteret de ces 

regions. L'implication de sequences endogenes tronquees ou completes dans des 

30 pathologies chez Tanimal est documentee ; par exemple leur association avec des 

processus tumoraux a ete clairement mise en evidence (S.K. Chattopadhyay et coll., 



1982, Nature, 295, 25-31). Une recherche visant a preciser l'association ou Tinfluence 
des HERVs dans des pathologies humaines se justifie done aujourd'hui. 

Une classification des elements HERV a ete proposee (Tonjes R.R. 
et aL, AIDS & Hum, RetroviroL, 1996, 13, S261-S267; A.M. Krieg et al., FASEB J., 
1992, 6, 2537-2544). Elle est basee sur une homologie de ces sequences avec des 
retrovirus isoles chez les animaux, a l'aide de sondes retrovirales heterologues. En 
effet, en general, les HERVs presentent relativement peu d'homologie avec des retro- 
virus infectieux humains connus. 

Les families de classe I presentent une homologie de sequence avec 
les retrovirus de mammiferes de type C ; on peut citer notamment la superfamille ERI, 
proche du virus MuLV {murine leukemia virus) et du virus BaEV {baboon endoge- 
nous virus). 

Les families de classe II presentent une homologie de sequence avec 
les retrovirus de mammiferes de type B tel que le MMTV {mouse mammary tumour 
virus) ou les retrovirus de type D tel que le SRV {squirrel monkey retrovirus), 

D'autres families ont egalement ete decrites ; parmi celles-ci, on peut 
citer des HERVs qui presentent, de maniere exceptionnelle, une homologie partielle 
avec HTLV-1 (RTVL-H) ou des virus de primates ; HRES-1, par exemple, presente 
une homologie de sequence avec des HTLVs. 

Les programmes de tres grand sequenfage du genome humain per- 
mettent aujourd'hui de disposer d'un nombre significatif de nouvelles sequences retro- 
virales. L'usage de logiciels de traitement de donnees permet d'identifier et d'analyser 
ces genes. Dans ce contexte une recherche systematique portant sur Tensemble des in- 
formations disponibles a ce jour a ete engagee afin d'identifier de nouvelles sequences 
retrovirales endogenes humaines en fonction de certains criteres d' analyse : 

- presence de longs cadres de lecture ouverts conserves au cours de 
1'evolution de l'organisme hote et pouvant laisser envisager une fonction biologique, 

- analogie avec des sequences deja caracterisees en dehors ou dans le 
domaine des retrovirus, 

- localisation dans des regions de susceptibilite pour certaines patho- 
logies ou a proximite de genes essentiels, par exemple dans les domaine du cancer, des 
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regulation du systeme immunitaire ou dans certaines neuropathologies. 

Les recherches effectuees par les Inventeurs, dans des bases de don- 
nees de sequences leur ont .permis d c identifier un ensemble de sequences ou de motifs 
retroviraux endogenes dont l'expression normale ou pathologique peut favoriser ou 
5 perturber un effet protecteur vis-a-vis de processus pathologiques, ou intervenir dans 
le declenchement ou T aggravation de pathologies. 

La presente invention a pour objet un fragment d'acide nucleique 
purifie, caracterise en ce qu f il comprend tout ou partie d'une sequence codant pour une 
sequence retrovirale endogene humaine, qui presente au moins des motifs retroviraux 
10 de type env, repondant a la sequence SEQ ID NO:l ou a une sequence presentant un 
niveau d'homologie avec ladite sequence SEQ ID NO:l superieur ou egal a 80% sur 
plus de 190 nucleotides ou superieur ou egal a 70 % sur plus de 600 nucleotides pour 
les domaines de type env. 

On entend par sequence homologue, aussi bien une sequence qui. 
15 . presente une identite complete ou partielle avec la sequence SEQ ID NO:l precitee 
qu'une sequence qui presente une similarity partielle avec ladite sequence SEQ ID 
NO:l. 

Selon un mode de realisation avantageux dudit fragment, il presente 
a la fois des motifs retroviraux correspondant a un domaine env et repondant a la 
20 sequence SEQ ID NO: 1 et des motifs retroviraux correspondant a un domaine gag et 
repondant a la sequence SEQ ID NO:2 ou a une sequence presentant un niveau 
d'homologie superieur ou egal a 80 % sur plus de 190 nucleotides ou superieur ou 
\ egal £L 7 ; 0 °A sur plus de 600 nucleotides pour les domaines de type env ^ et lih niveau 
d'homologie superieur ou egal a 90 % sur plus de 700 nucleotides ou superieur^ ou 
25 egal a 170 % sur plus de 1200 nucleotides pour les domaines de . type ^ag 5 ^lesquels 
motifs ne presentent auciane insertion ou deletion de plus de 200 nucleotides. 

Lesdits fragments constituent une nouvell^famille de sequences 
retrovirales endogenes humaines (famille HERV-7q) qui presente une homologie de 
sequence avec les retrovirus MSRV, tels que decrits dans la Demande Internationale 
30 WO 97/06260 ; lesdits fragments selon la presente invention presentent : 



- deux motifs nucleotidiques repetes de 71 1 pb (figure 3), presentant 
des signaux caracteristiques identifies dans des LTRs. (Long Terminal Repeats): 
promoteurs de transcription de type boites TATAA ou CCAAT. Ces domaines repetes 
encadrent trois motifs deduits de type-gag, pol et env (figure 2). 
5 - un motif de type env (positions 6965 nt - 9550 nt sur la sequence 

SEQ ID NO :3) qui contient un long cadre de lecture ouvert de 1620 nucleotides 
(positions 7874-9493 de la sequence ID NO:3) 5 codant pour une proteine de sequence 
inedite de 540 acides amines (figure 4) et fragment souligne de la SEQ ID NO:27. On 
retrouve a Tinterieur du domaine trans-membranaire de ce domaine env, un motif 
10 peptidique de type CKS-25/CKS-17 (fig.5), reconnu pour presenter des fonctions 
immunosuppressives sur les cellules lymphocytaires hotes (M. Mitani et coll., 1987, 
Proc. Natl. Acad. Sci. USA, 84, 237-240). Un domaine de type zinc-finger HX 3 . 
4 HX 22 _33CX 2 C (Kulkolski et coll., 1992, Mol Cell Biol, 12, 2331-2338), que Ton 
retrouve dans des domaines de type integrase est identifie dans un autre cadre de 
15 lecture. Ce domaine env particulier signe la caracteristique de nouveaux motifs retro- 
viraux endogenes. 

- le motif (positions 3065 nt - 4390 nt sur la sequence SEQ ID NO:3) 
de type-gag codant pour des motifs proteiques selon la figure 6 (SEQ ID NO:51) 
(positions 3118-4198 de la SEQ ID NO:3) a ete identifie grace a des analogies avec 
des domaines gag connus. On retrouve, par exemple, la region d'homologie majeure 
QX 3 EX 7 R (Benit et coll., 1997, J. Virol, 71, 5652-5657). Le motif de fixation des 
acides nucleiques CX 2 CX 3 ^HX4C, situe en position C-terminale, est identifie dans un 
autre cadre de lecture (Covey et coll., 1986, Nucleic Acids Res., 14, 623-633). En 
amont du domaine gag on detecte un motif de 1 82 nucleotides repete deux fois (figure 
!)■ 

- le domaine pol presente les consensus classiques d'une region pol 
de retrovirus au niveau des domaines protease, transcriptase reverse et RNAse H. On 
retrouve dans pol un motif proche du consensus LLDTGA (Weber et coll., 1988, 
Science, 243, 928-931). Les motifs D et AF, LPQ et .SP, et YVDD (Xiong et 
Eickbush, 1990, EMBO J., 9, 3353-3362), sont respectivement retrouves dans les 3°, 
4° et 5° boites d'homologie. Les motifs YTDGSS et TDS sont presents dans la region 
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delaRNAseH, 

- les regions gag et pol pourraient etre considerees comme jointives 
avec un passage de la region gag a la region pol par un decalage du cadre de lecture. 

La presente invention englobe les sequences appartenant a la famille 
HERV-7q telle que definie ci-dessus (presence de la sequence SEQ ID NO:l ou d'une 
sequence homologue ou presence a la fois des sequences SEQ ID NO:l et SEQ ID 
NO:2) et notamment les sequence SEQ ID NO:3-21 ; elle englobe egalement les 
sequences nucleiques complementaires et les sequences inverses complementaires des 
sequences precedentes ainsi que les fragments issus des regions codantes des 
sequences precedentes correspondant a un cadre glissant superieur ou egal a 14 
nucleotides ou leurs sequences complementaires. (SEQ ID NO : 3 0-50) 

Ces differents fragments peuvent avantageusement etre utilises 
comme amorces ou comme sondes ; ils s'hybrident specifiquement a une sequence de 
la famille HERV-7q. 

Parmi ces fragments, on peut citer 3 de preference les fragments 

suivants: 

- un fragment de 182 nucleotides repete deux fois, situe en amont du 
domaine gag aux positions 2502-261 1/2613-2865 de la SEQ ID NO:3 ; 

Amorces et sondes specifiques de la region sag 

- une amorce GIF, sens, localisee dans la region amont du domaine 
gag de HERV-lq : 5' GGACCATAGAGGACACTCCAGGACTA 3 5 
(SEQ ID NO:30); '> / * 

^ y - une amorce G1R, anti-sens, localisee dans la region 3' terminate du 
domaine ^ag : 5' CCTCAGTCCTGCTGCTGGATCATCT 3' (SEQ/fb^JO \iY)/ 

X \N - le fragment de 1505 nt amplifie par le couple GlF-GlR^est utilise 

afin de generer les sondes, aptes a hybrider les differents produits d 'amplification des 

pcr; ^* : :^.. .. ' "'" ' • 

- une amorce G2F, ; sens:nichee : (SEQ ID NO :32) 

5' CCTCCAAGCAGTGGGAGGAAGAGAATT 3' 

/ 



- une amorce G2R, anti-sens nichee : (SEQ ID NO :33) 
5 5 CCTTCCCTGTGTTATTGTGGACATCATT 3' 

- une amorce G4F, sens nichee : (SEQ ID NO :34) 

5' GGAAGAAGTCTATGAATTATTCAATGATGT 3 5 
5 - une amorce G3F, sens nichee: (SEQ ID NO :35) 

5 ' GGGACAC AGAATCAGAAC ATGGAGATT 3 ' 

- une amorce G4R, anti-sens nichee : (SEQ ID NO :36) 
5 5 GCCTTCAGAAGAGTCAGGTGACAGAGA 3' 

- une amorce GSR, anti-sens nichee : (SEQ ID NO :37) 
1 0 5 ' GAGCCTCC AAAGTCCACTTGCCTGA 3 5 

Amorces et sondes specifiques de la region env 

- une amorce E1F, sens : (SEQ ID NO :38) 

5 * GATTTC AGTATCTACTAGTCTGGGTAG AT 3 9 

- une amorce E1R, anti-sens : (SEQ ID NO :39) 

15 5 ' CTAGGAAATCC AGCTAGTCCTGTCTC A 3 ' 

- le fragment de 2529 nt amplifie par le couple d'amorces E1F-E1R, 
est utilise afin de generer les sondes aptes a hybrider les differents produits 
d' amplification des PCR. 

- une amorce E2F, sens : (SEQ ID NO :40) 

20 5 ' CC AAGAC AGCC AACTTAGTTGC AGAC AT 3 * 

- une amorce E2R, antisens : (SEQ ID NO :41) 

5' GGACGCTGCATTCTCCATAGAAACTCTT 3 ' 

- une amorce E3F 3 sens : (SEQ ID NO :42) 

5' GCAATACTACATACACAACCAACTCCCAA 3' 
25 - une amorce E3R ? anti-sens : (SEQ ID NO :43) 

5 ' GGGGGAGGC ATATCC AAC AGTTAGTA 3 ' 

- une amorce E4F 5 sens : (SEQ ID NO :44) 

5' CCATCTACACTGAACAAGATTTATACACTT 3 5 

- une amorce E4R, anti-sens : (SEQ ID NO :45) 

30 5' AATGCCAGTACCTAGTGCACCTAGCACT 3' 
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- une amorce E5F, sens : (SEQ ID NO :46) 

5 ' CGAATACAACGTAGAGCAGAGGAGCTTCGAA 3 

- une amorce E6F, sens : (SEQ ID NO :47) 

5' AGCCCAAGATGCAGTCCAAGACTAAGAT 3' 
5 - une amorce E5R : (SEQ ID NO :48) 

5'GCGTAGTAGAGGTTGTGCAGCTGAGAT V 

- une amorce ExF : (SEQ ID NO:49) 
CCCTTACCAAGAGTTTCTATGGAGAAT 

- une amorce ExR : (SEQ ID NO:50) . 

10 ACCGCTCTAACTGCTTCCTGCTGAATT 

Tous les oligonucleotides sont con<?us pour pouvoir generer une 
amorce sens et une amorce anti-sens par un decalage de la sequence de 1' amorce de 
reference de 1 a 7 nucleotides vers le cote 5' ou vers le cote 3': la modification de la 
sequence peut entrainer une modification de la taille de 1' amorce de 1 a 7 nucleotides 

1 5 selon les cas. Les amorces choisies peuvent etre optimisees selon les cas par un 
raccourcissement ou un allongement portant sur 1 a 9 nucleotides. 

De maniere preferee, l'hybridation, le clonage, le sous-clonage, 
l'obtention, la preparation et l'analyse des acides nucleiques, des peptides et des anti- 
corps, le sequen9age des acides nucleiques et des peptides, Fhybridation in situ et 

20 rimmunohistochimie sont realises dans les conditions decrites dans les ouvrages 
suivants : - / 

- Current Protocols in Molecular Biology. Eds. F.M Ausubel, R. 

Brent & R E Kingston et coll. Green Publishing associates and Wiley Intersciehce. //" 

\\ * /■■,-■• - ' — ^ .... - ' A ^ /* 

A . / - Molecular Cloning: a laboratory manual. Eds. J. Sambrook,yE.F. 

v x / ' ' 4/' 

25 FritschC& T. Maniatis. Cold Spring Harbor Laboratory Press. Cold Spring Harbor. 

„ - The Practical Approach; series. , Eds. D. Rickwood^&^B.D. Ames. 

IRL Press and Oxford University Press. En particulier, antibodies T& II; DNA cloning 

I, II, III; Nucleic acid and protein sequence analysis; Nucleic acid hybridization; 

Nucleic acid sequencing ; Oligonucleotide synthesis; Protein purification applications; 
30 Protein purification methods; Protein sequencing; Transcription and translation; Gels 

electrophoresis of nucleic acids; Gels electrophoresis of proteins; Genome analysis; 
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HPLC of macromolecules; Human genetic diseases; Microcomputing in biology; 
Molecular neurobiology; Mutagenicity testing; Essential molecular biology I & II. 

- Proteome research: New frontiers in functional genomics. Eds 
M.R. Wilkins & coll.. Springer. 

5 La sequence retrovirale endogene humaine (SEQ ID NO:3), situee 

sur le bras long du chromosome 7 correspond a la sequence HERV-7q ; elle presente 
10,5 kb (fig. 1 et 2) et repond aux criteres precedemment definis. 

La recherche de domaines presentant des similitudes, tout ou partie, 
avec les regions gag et env de HERV-7q a abouti a T identification de nouvelles 

10 sequences retrovirales endogenes. Ces sequences peuvent presenter la structure d'un 
retrovirus endogene complet comme la sequence retrovirale endogene situee a proxi- 
mite du gene des sous-unites alpha et delta du recepteur des cellules-T, et denommee 
en consequence HERV-TcR ; a titre d'exemple la figure 7 montre la comparaison des 
alignements nucleiques des domaines gag respectifs de HERV-7q et HERV-TcR 

15 (sequence HG12, SEQ ID NO: 18). On trouve aussi des structures retrovirales 
partielles. Ces domaines retroviraux similaires a HERV-7q sont identifiees dans des 
sequences nucleiques independantes comme le montre leur localisation chromo- 
somique. Des motifs nucleiques (appeles ici, HEx ou HGx et respectivement analo- 
gues a des domaines de type env ou gag) ressemblant aux domaines env ou gag de 
20 HERV-7q ont ete retrouves, a Taide des banques de donnees precitees : 

- HE2 : chromosome 17 (SEQ ID NO:4), 

- HE3 et HG3: chromosome 6 (SEQ ID NO:5 et 6), 

- HE4 : chromosome X (SEQ ID NO:7) 5 

- HE5 : chromosome X q22 (SEQ ID NO:8), 

25 - HE6 et HG6 : chromosome 1 q23.3-q24.3 (SEQ ID NO:9 et 10), 

- HE7 : chromosome 7 pi 5 (SEQ ID NO: 1 1), 

- HE8 et HG8 : chromosome 19 (SEQ ID NO: 12 et 13), 

- HE9 : chromosome X (SEQ ID NO: 1 4), 

-HE 10 : chromosome Xql3. 1-21.1 (SEQ ID NO:15), 
30 - HE1 1 et HG1 1 : chromosome 7 q21-22 (SEQ ID NO: 16 et 17), 
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. - HE12 et HG12, dans HERV-TcR : chromosome 14 ql 1.2 (SEQ ID 

NO:18et 19). 

Les alignements des domaihes env (fig. 8) et gag (fig. 9) explicitent 
les niveaux d'homologie observes entre les sequences decrites ci-dessus et les sequen- 
5 ces homologues dans HERV-7q. Les analogies peuvent s'etendre aux motifs retro- 
viraux flanquants. 

Une analyse des sequences etiquettes disponibles dans les banques 
de donnees montre que des transcrits appartenant a certains des membres de cette 
famille, en particulier HERV-7q, s'expriment essentiellement dans des tissus d'origine 
10 foetale ou placentaire. 

Des sequences polypeptidiques generees par ces transcrits peuvent 
done etre potentiellement produites et des fonctions ou activites biologiques peuvent 
etre envisagees, par analogie avec des polypeptides biologiquement actifs d'origine 
virale ou retrovirale ; par exemple, les motifs peptidiques de type CKS-17 (fig. 5) ou 
15 CKS-25 (Huang S.S et Huang J. S, J. Biol. Chem. 1998, 273, 4815-4818), qui 
presentent des fonctions immunomodulatrices sur les cellules lymphocytaires hotes. 
Les differences de sequence observees et d'eventuelles modifications normales ou 
pathologiques, sont en particulier, a 1'origine d'une modulation de la fonction. 

HERV-7q represente le paradigme de la nouvelle famille de 
20 sequences retrovirales endogenes humaines ou de motifs retroviraux endogenes. 

HERV-7q et certaines des sequences retrovirales endogenes apparte- 
. nant a sa famille, presentent un domaine de type pol analogue a des sequences retro- 
virales de type pol comme par exemple la region pol identifiee dans* le retrovirus 
MSRV associe a la sclerose en plaques et decrit par H. Perron et al.-(1997, Proc.JtJatl 
25 AcactScL USA, 94/7583-7588 ; Demande Internationale PGT^w6 x ^97/06260)>^ 

, \ Toutefois,. les sequences selon la presente inventiqn;'se distinguent 
des sequences relrovirales exogenes infectieuses analogues a MSRV anterieurement 
decrites en ce que les sequences gag ."et. ewv, selon Finvention sont significativement 
differentes selon les criteres precedemment definis et en fonction de certaines caracte- 
30 ristiques specifiques, par exemple le long cadre de lecture ouvert dii domaine env de 
HERV-7q ; elles seraient a meme de permettre de signer une pathologie lorsqu'elles 
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presentent des insertions, des deletions, des decalages de cadre de lecture ou des 
mutations. 

En effet, les differences observees entre les sequences humaines de 
type HERV-7q 5 qui sont isolees d'individus reputes normaux et les sequences issues 
5 de certains echantillons d'origine pathologique, ne sont pas distributes au hasard. Des 
comparaisons menees entre la region gag provenant de particules retrovirales infec- 
tieuses (N° d'accession EMBL: A60168, A60200, A60201, A60171...) et la sequence 
gag correspondante de HERV-7q (fig. 9), permettent d'observer que les mutations 
affectent preferentiellement des codons non-sens. Par exemple, deux codons non-sens 
10 dans HERV-7q sont remplaces par un codon arginine dans A60200, ce qui permet 
d'obtenir une sequence deduite de 109 acides amines pour HERV-7q et de 166 acides 
amines pour A60200. Les changements de base permettent en consequence de prolon- 
ger le cadre de lecture et de coder potentiellement pour des structures polypeptidiques 
de plus grande taille (figure 10). 

15 De meme, une sequence de type env provenant de particules retro- 

virales infectieuses, presente une analogie significative avec le domaine env de 
HERV-7q (figure 11). Ces analogies marquees entre sequences retrovirales exogenes 
et endogenes pourraient etre a l'origine du declenchement ou de T aggravation de 
certains processus pathologiques, en particulier de certaines maladies auto-immunes, 

20 comme la sclerose en plaques. A cet egard, on peut remarquer que certaines des 
sequences retrovirales endogenes decrites dans T invention se situent a proximite ou 
dans des regions reputees presenter une susceptibilite pour la sclerose en plaques : par 
exemple HERV-7q et la region 7q21-22 du chromosome7, de meme pour HE 12 et 
HG12 dans HERV-TcR et la region du gene codant pour les chaines alpha et delta du 

25 recepteur des cellules-T, HE2 et le chromosome 17, ou HE3 et HG3 et le chromosome 
6. 

On n'observe aucune homologie significative avec des sequences 
retrovirales endogenes deja decrites; par contre, on peut relever une homologie limitee 
et en tout etat de cause inferieure aux criteres definis selon l'invention entre les 
30 domaines env de la sequence HERV-7q (SEQ ID NO :1) et de la sequence HERV-9 
(figure 12). La figure 13 montre des homologies etendues entre la sequence HERV-7q 
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avec une sequence retrovirale exogene (N° d'accession EMBL : A60170). 

Les sequences retrovirales endogenes humaines appartenant a .la 
famille de HERV-7q, peuvent proteger contre des agressions liees a Penvironnement 
ou constituer un benefice pour l'individu. Cet effet benefique pourrait etre une des 
raisons possibles de la pression de selection exercee sur certaines de ces sequences et 
du caractere potentiellement fonctionnel des structures proteiques deduites identi- 
fies : par exemple le long cadre de lecture ouvert apte a coder pour une nouvelle pro- 
teine et correspondant au domaine env de HERV-7q. 

Les sequences retrovirales endogenes humaines appartenant a la fa- 
mille de HERV-7q pourraient etre associees par exemple, a des pathologies en relation 
avec les processus lies au cancer, aux neuropathologies a composante auto-immune ou 
a tout autre processus pathologique en association ou non avec des virus ou retrovirus 
endogenes ou exogenes. Leur action pourrait porter sur la declaration, Taggravation, la 
modification du calendrier d'apparition ou encore la protection vis a vis de la maladie. 

Dans le contexte d'application a des pathologies autoimmunes 
(comme par exemple le lupus, le syndrome de Sjogren, la polyarthrite rhumatoide, la 
sclerose en plaques...), on peut relever des analogies significatives entre les motifs re- 
troviraux endogenes identifies et des motifs retrouves dans des structures retrovirales 
caracterisees chez des patients presentant des pathologies autoimmunes comme la 
sclerose en plaques : par exemple des fragments de domaine gag (recemment dispo- 
nibles dans les banques de donnees) provenant de particules retrovirales infectieuses 
ou encore la sequence complete du domaine pol correspondant au virus MSRV associe 
a la sclerose en plaques. Ces motifs retro viraux possedent des analogies significatives 
avec les sequences endogenes homologues de type HERV-7qf ce; v qui peirnet 
d'envisager une association directe ou indirecte avec des processus pathplpgiques, 
dont la sclerose en plaques, en association ou non avec MSRV. On .peut relever la 
presence de certaines de ces sequences ou motifs dans des regions de susceptibilite 
pour la sclerose en plaques: par exemple, les sequences HE 1 1 et HG11, autour de la 
region 7q 21-22 ou encore HE4, HE5, HE6, HE9, HE10 ou HG10 sur le chromosome 
X sont localisees au niveau ou a proximite de regions chromosomiques regulierement 
associees a des genes de susceptibilite pour la sclerose en plaques. Ces sequences 
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seraient done a meme de fournir des moyens de localisation ou d'identification des 
genes de predisposition. 

L'interet de ces sequences depasse le cadre des maladies auto- 
immunes. En dehors de l'importance generale des motifs retroviraux dans le declen- 
5 chement ou l'aggravation d'un processus tumoral, bien montre en particulier dans les 
modeles murins (H. Fan dans The retroviridiae, 1994, ed. J. A. Levy, Plenum, New 
York, p. 313-353), ces sequences pourraient se retrouver a proximite ou au sein de 
genes importants et en alterer l'expression : par exemple HERV-TcR et les genes des 
sous-unites alpha et delta du recepteur des cellules-T impliquees dans des perturba- 
) tions de la fonction imrnunitaire. 

L'invention a egalement pour objet les transcrits generes a partir des 
sequences precitees ainsi que celles presentant eventuellement des modifications avec 
les sequences de reference decrites dans 1'invention lorsqu'ils sont exprimes chez 
certains patients. 

En effet, les systemes de regulation de l'expression des proteines 
retrovirales de HERV-7q, qui sont presents dans les motifs de type LTR, pourraient 
influencer l'expression de genes situes dans le voisinage chromosomique proche ou 
eloigne et induire des perturbations a caractere immunologique et/ou neurologique. 
Par exemple la sequence retrovirale endogene HERV-TcR, se trouve a proximite 
immediate des genes des sous-unites alpha et delta du recepteur des cellules-T prece- 
demment decrit. Les motifs de type LTR pourraient aussi coder pour des superanti- 
genes (Acha-Orbea et Palmer, 1991, Immunol. Today, 12, 356-361). D'une maniere 
generale des proteines retrovirales de type HERV-7q ou apparente, ou leurs formes 
tronquees ou partielles pourraient etre impliquees dans des phenomenes de cytotoxi- 
cite ou de superanteginicite, comme par exemple celles issues du long cadre de lecture 
ouvert identifie dans le domaine env (figure 4). 

A cet egard, on peut relever que des motifs retroviraux issus de 
regions defectives sont aptes a presenter des fonctions biologiques: par exemple, la 
proteine d'enveloppe pl5E issue de motifs retroviraux defectifs, possede une activite 
anti-inflammatoire et immunosuppressive (Snyderman et Ciancolo, 1984, Immunol. 
Today, 5, 240-244). 
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Ces structures sont vraisemblablement a meme de provoquer des 
breches ou d'amplifier des deregulations dans les processus de defense immunitaire. 
Certains des motifs des domaines gag, env et de type LTR peuvent etre associes a une 
fonction particuliere ou peuvent contribuer a la fonction normale ou pathologique des 
5 domaines flanquants. Des recombinaisons avec un element d'origine exogene, retro- 
viral ou non, peut donner lieu a la production de motifs nucleiques ou proteiques qui 
pourraient soit proteger, soit declencher, ou favoriser ou aggraver une pathologic De 
meme, une structure retrovirale contenant des elements retroviraux endogenes selon 
T invention seraient a meme de provoquer un processus pathologique apres passage par 
10 un cycle transitoire exogene puis reintegration dans une region sensible ou critique du 
genome humain. 

De meme, la combinaison de motifs appartenant a la famille de 
HERV-7q, ou d' elements induits par des motifs appartenant a la famille de HERV-7q, 
avec des motifs d'origine ou induits de maniere exogene seraient a meme de pouvoir 

15 declencher, ou aggraver un processus pathologique ou au contraire de favoriser une 
protection ou une remission partielle ou une guerison totale et definitive. 

La detection rendue possible des domaines de type HERV-7q, 
suggere des applications possibles a la fois au niveau prophylactique, du pronostic et 
du diagnostic : par exemple des approches immunologiques ou d'amplification 

20 genique permettant de comparer des individus normaux servant de reference avec des 
patients, seraient a meme de favoriser le depistage, d'ameliorer la detection precbce de 
la declaration de la maladie et/ou de suivre 1'evolution d'une pathologie chez des 
patients pouvant presenter une susceptibilite ou ayant declare la maladie ou encore 
chez^des individus consideres comme normaux, selon les criteres cliriiques actuels^ 

\v v ■ > / ^ - s-y^xO- ' // ' 

25 \X Les sondes nucleiques et immunologiques specifiques, Relies que 

\>% - , /; , - ■. . . ■ - r ~ \f x; " ,.sy 

defimes, dans- la presente invention sont a meme de favoriser V identification et la 
detection de motifs ariormalement exprimes dans le cadre de pathologies associees au 
cancer, ou de neuropathologies - en particulier autoimmunes, au premier rang 
desquelles la sclerose en plaques. 
30 Des manoeuvres therapeutiques peuvent etre envisagees par usage de 

certaines des sequences nucleiques contenues dans HERV-7q et les sequences de la 
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meme famille ou des structures polypeptidiques deduites ou par utilisation de peptides 
ou proteines, ou d'anticorps specifiques. 

La presente invention a egalement pour objet des sequences 
nucleiques hybrides, caracterisees en ce qu'elles comprennent des sequences ou motifs 
5 appartenant a la famille de HERV-7q, ou d'elements induits par des motifs apparte- 
nant a la famille de HERV-7q, avec des motifs d'origine ou induits de maniere 
exogene (sequences retrovirales exogenes) ; de telles sequences hybrides sont vrai- 
semblablement a meme de pouvoir declencher, ou aggraver un processus pathologique 
ou au contraire de favoriser une protection ou une remission partielle ou une guerison 
10 totale et definitive. 

La presente invention a egalement pour objet un reactif de diagnostic 
pour la detection differentielle de sequences nucleiques endogenes humaines 
completes ou partielles, presentant des motifs retroviraux, selectionnes parmi les 
sequences SEQ ID NO :1 et/ou SEQ ID NO :2, caracterise en ce qu'il est selectionne 
15 dans le groupe constitue par les sequences SEQ ID NO :l-50, les sequences 
nucleiques complementaires et les sequences inverses complementaires des sequences 
precedentes, par les fragments nucleotidiques capables de defmir ou d'identifier les 
sequences SEQ ID NO:l et/ou SEQ ID NO:2 et toute sequence flanquante ou les 
chevauchants ainsi que par les fragments issus des regions codantes des sequences 
20 SEQ ID NO : 1 -24, correspondant a un cadre glissant superieur ou egal a 1 4 nucleotides 
ou leurs sequences complementaires, eventuellement marquees avec un marqueur 
approprie. 

Les sequences des sondes nucleiques, ribonucleiques et oligo- 
nucleotidiques utilisees seront choisies dans les regions env et gag ou leur regions 
25 flanquantes : par exemple les oligonucleotides amorces pour HERV-7q, seront choisis 
dans les regions situees entre les nucleotides 3065 et 4390 et les nucleotides 6965 et 
9550, ainsi que dans toute sequence adjacente (amont ou aval) capable de permettre 
une amplification specifique (figure 1). 

Parmi les marqueurs appropries, on peut citer, les isotopes radio- 
30 achfs, les enzymes, les fluorochromes, des marqueurs chimiques (biotine), les 
haptenes (digoxygenine) et les anticorps ou analogues de bases appropriees. 
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De maniere preferee : 

- ledit reactif est selectionne parmi les sequences SEQ ID NO:30-50 
et est apte a etre utilise comme amorce. 

- ledit reactif est selectionne parmi les sequences suivantes : 

5 un fragment de 1505 nt amplifie par le couple d'amorces SEQ 

ID NO:30 et SEQ ID NO:3 1 (amorces GIF et G1R), 

un fragment de 2529 nt amplifie par le couple d'amorces SEQ 
ID NO:38 et SEQ ID NO:39 (amorces E1F et E1R) et est apte a etre utilise comme 
sonde. 

0 La presente invention a egalement pour objet un procede de detec- 

tion rapide et differentiel des sequences nucleiques retrovirales endogenes de type env 
ou env et gag, de leurs variants normaux ou pathologiques, par hybridation et/ou 
amplification genique, realise a partir d'un echantillon biologique, lequel procede est 
caracterise en ce qu'il comprend : 

5 (a) une etape dans laquelle Ton met en contact un echantillon biolo- 

gique a analyser avec au moins une sonde telle que definie ci-dessus et 

(b) une etape dans laquelle on detecte par tout moyen approprie, le 
ou les produits resultant de Tinteraction sequence nucleotidique-sonde. 

Conformement audit procede, il peut comprendre : 

* prealablement a 1' etape (a) : 

. urie etape de preparation du tissu ou du liquide biologique 
concerne, / ^ 

J . une etape d'extraction de l'acide nucleique a detecter, et ' /.; 

v ;\ . au moins un cycle d' amplification genique et .. <■ ■% > .. // 

* posterieurement a V etape (b) : v \ X V ; /Y 

v " ■'; ■ . /- - ^ \\ " " 

: v . une etape de comparaison des sequences nucleiques dbtenues dans 

ledit echantillon biologique avec les sequences retrovirales endogenes humaines selon 
V invention par tout moyen approprie et _notamment par sequen9age 5 Southern-blot, 
coupure de restriction, SSCP ou toute autre methode permettant d'identifier une inser- 
tion ou une deletion ou encore une simple mutation entre les difftrentes sequences 
comparees. 
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Conformement a l'invention, les sequences retrovirales endogenes 
humaines selon l'invention sont ainsi comparees aux sequences nucleiques presentes 
dans l'echantillon biologique a analyser et permettent la detection de sequences 
homologues de patients atteints de pathologies, susceptibles de mettre en jeu une 
5 modification de leur genome. 

De maniere avantageuse, lesdites comparaisons geniques sont 
menees a partir d'ADN genomique provenant d'individus temoins et de patients. 

Une amplification genique classique par PCR sera menee a 1'aide 
d'amorces 5' -sens et 3' -antisens encadrant ou comprenant la zone a etudier (zone env 
10 ou zone gag). 

Egalement de maniere avantageuse, les sequences des sondes 
nucleiques, ribonucleiques et oligonucleotidiques utilisees sont choisies dans les 
regions env et gag ou leurs regions flanquantes : par exemple les oligonucleotides 
amorces pour HERV-7q, seront choisis dans les regions situees entre les nucleotides 
5 3065 et 4390 et les nucleotides 6965 et 9550, ainsi que dans toute sequence adjacente 
(amont ou aval) capable de permettre une amplification specifique (figure 1), comme 
precise ci-dessus. Elles sont de preference selectionnees dans le groupe constitue par 

un fragment de 1505 nt amplifie par le couple d'amorces SEQ 
ID NO:30 et SEQ ID NO:3 1 (amorces GIF et G1R), 
0 un fragment de 2529 nt amplifie par le couple d'amorces SEQ 

ID NO:38 et SEQ ID NO:39 (amorces E1F et E1R). 

L'etape d' amplification genique est notamment realisee a l'aide 
d'une des techniques d' amplification genique suivante : amplification par la Qp- 
replicase, PCR, LCR, ERA, CPR ou SDA. 

La presente invention a egalement pour objet un procede de detec- 
tion des transcrits, tels que definis ci-dessus, caracterise en ce qu'il comprend : 

- le prelevement des ARN messagers provenant de tissus temoins et 
de tissus preleve chez des patients et 

- 1' analyse qualitative et/ou quantitative desdits ARNm, par hybri- 
dation in situ, par dot-blot, Northern-blot, RNAse mapping ou RT-PCR, a l'aide d'un 
reactif de diagnostic tel que.defini ci-dessus. 
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La presente invention a egalernent pour objet des produits de traduc- 
tion, caracterises en ce qu'ils sont codes par une sequence nucleotidique telle que 
definie ci-dessus. 

La presente invention a egalernent pour objet un peptide, caracterise 
en ce qu ! il est susceptible d'etre exprime a l'aide d'une sequence nucleotidique selec- 
tionnee dans le groupe constitue par les sequences SEQ ID NO: 1-24, telles que defi- 
nies ci-dessus. 

Ledit peptide englobe egalernent les peptides ou polypeptides deri- 
ves comprenant entre 5 et 540 aminoacides (SEQ ID NO:25-29 et SEQ ID NO:51 et 
leurs fragments d'au moins 5 aminoacides). 

Lesdits peptides sont traduits a partir des sequences nucleiques telles 
que definies ci-dessus, selon les combinaisons offertes par Tusage des differents 
cadres de lecture possibles. 

Selon un mode de realisation avantageux desdits peptides, ils sont 
notamment selectionnes parmi les sequences SEQ ID NO:25-29 et SEQ ID NO :5 1 

Selon un autre mode de realisation avantageux desdits peptides, ils 
sont obtenus a partir des sequences nucleiques telles que definies ci-dessus, dans 
lesquelles au moins un codon non-sens peut etre remplace par un codon codant pour 
Tun des aminoacides suivants : Phe (F), Leu (L), Ser (S), Tyr (Y), Cys (C), Trp (W), 
Gin (Q), Arg (R), Lys (K), Glu (E) ou Gly (G). 

L'invention englobe ainsi les peptides deduits ou les proteines 
deduites correspondent a tout ou partie des sequences nucleiques decrites dans/ 
1' invention, et presentant eventuellement des modifications avec les sequences de refe^ 
rences decrites dans rinvention, lorsqu'ils sont exprimes chez certains^patients/'En 

x \ V . . \\ \\ / ■ J ' ^ 

particuher, 1' invention englobe les sequences completes ou partielles obtenues selon 
les 3 cadres de lecture sens et les 3 cadres de lecture inverses et complementaires. 
(voir SEQ ID NO-22,24) ' ^ 

De maniere avantageuse, la proteine eriv de HERV-7q selon 1'inven- 

tion presente : 

- des sites de N-glvcosvlation . La glycosylation des proteines 
d'enveloppe des retrovirus semble etre directement associee a leurs proprietes fonc- 
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tionnelles, par exemple en influen9ant le nombre des determinants disponibles dans les 
cellules-T ou en favorisant la reconnaissance des antigenes par les cellules-T. La 
glycosylation pourrait jouer un role dans la declaration ou l'extension d'une patholo- 
gie a incidence autoimmune. Les glycosylations sont necessaires au maintien de la 
5 conformation de certains epitopes, en particulier lors de la realisation d'une proteine 
d'enveloppe recombinante a fin de mise au point d'un reactif de diagnostic et pour 
favoriser l'efficacite d'un eventuel vaccin. Positions 171, 210, 216, 236, 244, 283 et 
411. Nombre prevu au hasard : 3 .2 

" des sites de prenylatinn La prenylation est un mecanisme essentiel 
10 de la fixation a la membrane cellulaire et pour le ciblage de certaines proteines. Ce 
processus de ciblage pourrait etre essentiel pour 1 'elaboration d'agents therapeutiques 
specifiques aptes a interferer dans la realisation et la regulation du trafic de complexes 
cellulaires mettant en jeu des proteines impliquees dans les interactions, la croissance 
et les mouvements cellulaires. Positions 1 88 et 290. Nombre prevu au hasard : 1 .8 
15 " des sites de ciblage dans l e reticulum endoplasmiq iift Ces sites 

permettraient d'assurer le ciblage vers le reticulum endoplasmique afin d'effectuer les 
modifications necessaires pour favoriser le franchissement membranaire. Positions 
353 et 431. Nombre prevu au hasard : 0.2 

Lesdits peptides ou proteines peuvent presenter avantageusement des 
20 proprietes biologiques. 

Les produits proteiques generes par les sequences retrovirales endo- 
genes ou produits parallelement peuvent avantageusement etre caracterises par des 
micro-methodes d'analyse et de quantification des peptides et des proteines: 
HPLC/FPLC ou equivalent, electrophorese capillaire ou equivalent, techniques de 
25 microsequencages (methode d'Edman ou equivalent, spectrometrie de masse...). 

L'invention a egalement pour objet des anticorps diriges contre Tun 
ou plusieurs des peptides decrits ci-dessus et leur utilisation pour la mise en ceuvre 
d'une methode de detection in vitro, notamment differentielle de la presence d'une 
telle sequence chez un individu. 

30 Lesdits anticorps sont avantageusement des anticorps polyclonaux 

ou monoclonaux obtenus par une reaction immunologique d'un organisme humain, 
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mammiferes, oiseaux ou autres especes vis-a-vis des proteines, telles que definies ci- 
dessus. 

La presente invention a pour objet un procede de depistage 
immunologique differentiel de sequences retrovirales endogenes humaines de la 
famille HERV-7q normales ou pathologiques, caracterise en ce qu'il comprend la mise 
en contact d'un echantillon biologique avec un anticorps selon 1'invention, la lecture 
du resultat etant revelee par un moyen approprie, notamment EIA, ELISA, RIA, 
fluorescence. 

✓ A titre d 5 illustration, une telle methode de diagnostic in vitro selon 

T invention comprend la mise en contact d'un echantillon biologique preleve chez un 
patient, avec des anticorps selon l'invention et la detection a l'aide de tout procede 
approprie, notamment a l'aide d'anti-immunoglobulines marquee, des complexes 
immxmologiques formes entre les proteines produites normalement ou pathologique- 
ment et les anticorps. 

Des anticorps monoclonaux ou polyclonaux, produits a partir 
d'antigenes correspondants a des peptides de synthese, de polypeptide ou proteines 
recombinants, permettent de suivre 1' expression des peptides ou proteines produits 
normalement ou pathologiquement. L'analyse est de preference effectuee par ELISA, 
ou equivalent, Western-blot ou equivalent, ou par immunohistochimie. 

Les peptides ou proteines, issus des sequences retrovirales endo- 
genes ou dontT expression est associee a l'expression de ces sequences retrovirales 
endogenes, sont recherches et identifies. - 

1 , ; x \ t La presente invention a egalement pour objet un procede d'identifi- 

Vation et de detection de motifs retroviraux endogenes, anoimalement ^xprimes; dans 

^Vv ' '/' , ' ' s \C $ y / -/ 

le cadre de pathologies associees au cancer, ou de neuropathologres en^ parti culier 

. XN ' . /; . ' ^ V V'" ysy 

autoimmunes, au premier rang desquelles la sclerose en plaques, caracterise en ce qu f il 

^"-x^'-v, ' ■ -■' ,l * ... Nv ' ^^'^ 

comprend l'analyse comparee des sequences extraites d'un echantillon biologique avec 

les sequences selon 1' invention. 

La presente invention a egalement pour objet Tapplication des 

sequences nucleiques ou des sequences proteiques selon l'invention au diagnostic, au 

pronostic, a T evaluation de la susceptibilite genetique, a toutes maladies humaines 
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induites, innees ou acquises en particulier celles a composantes cancereuses, auto- 
immunes et/ou a incidence neurologique, comme la sclerose en plaques, les 
syndromes associes et les maladies neurodegeneratives ou intervient tout ou partie des 
sequences nucleiques selon l'invention et des formes endogenes ou exogenes appa- 
5 rentees. 

La presente invention a egalement pour objet des sequences 
nucleiques hybrides, caracterisees en ce qu'elles comprennent des sequences ou motifs 
nucleiques selon l'invention, combines avec des sequences ou motifs d'origine 
endogene ou d'origine ou induits de maniere exogene. 
10 La presente invention a, en outre, pour objet un vecteur recombinant 

de clonage ou d'expression, caracterise en ce qu'il comprend une sequence nucleique 
conforme a l'invention. 

Outre les dispositions qui precedent, l'invention comprend encore 
d'autres dispositions, qui ressortiront de la description qui va suivre, qui se refere a 
15 des exemples de mise en oeuvre du procede objet de la presente invention ainsi qu'aux 
dessins annexes, dans lesquels : 

- Figure 1. Sequence nucleique humaine HERV-7q, dont l'analyse et 
le traitement permettent de caracteriser une nouvelle structure retrovirale endogene. 
Les regions nucleiques repetees de type Rl et R2 et les domaines gag,pol et env sont 

20 soulignes. Les domaine de type gag et env sont en italiques. La region homologue a 
une partie 3' non-codante de Rab7 est doublement soulignee. 

- Figure 2. Cartographie de la region retrovirale endogene humaine 
HERV-7q. La partie haute de la figure correspond a une region anonyme du genome 
humain situee sur le bras long du chromosome 7. On peut identifier les domaines 

25 repetes ( 1 ), gag (2), pol (3) et env (4) de HERV-7q. La region env C-terminale (4.3) se 
prolonge en amont en un long cadre de lecture ouvert (4.2). Le domaine 4.1, corres- 
pond a la region N-terminale du domaine env. 

- Figure 3. Comparaison des sequences nucleiques repetees situees 
aux bornes de HERV-7q. Les regions nucleiques repetees 5'(haut) et 3'(bas), sont 

30 comparees et les bases identiques sont indiquees par deux points. 
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- Figure 4. Sequence deduite presentant un cadre de lecture ouvert, 
dans le domaine de type-env de HERV-7q selon la regie du plus long cadre de lecture 
ouvert. 

- Figure 5. Sequences autour du domaine CKS-17 identifiees dans 
differents domaines env deduits de la famille de HERV-7q et comparaison avec des 
motifs CKS-17 de reference. 

1) HE2 - 2) HERV-7q - 3) N° d'acces a GenBank: M85205 - 4) 
HE7- 5) HE9 - 6) CKS-17: le motif peptidique doue de proprietes 
immunomodulatrices est souligne - 7) gp20 de retrovirus de type-D (SRV-Pc). 

- Figure 6. Sequence deduite possible du domaine de type-gag iden- 
tifie dans HERV-7q etablie selon la regie du plus long cadre de lecture ouvert. X et / 
correspondent respectivement a un codon non-sens et a un decalage de cadre de 
lecture. La sequence soulignee correspond au debut du domaine poL 

- Figure 7. Comparaison des regions nucleiques couvrant la region 
gag de HERV-7q (haut) et HERV-TcR (bas) et leurs regions flanquantes. Les bases 
identiques sont specifiees par deux points. 

- Figure 8. Exemple d'alignements nucleiques du domaine de type 
env de HERV-7q avec des domaines de type env similaires presents dans des 
sequences retro virales endogenes humaines de la meme famille. Les codons non sens 
sont soulignes : 1) HERV-7q - 2) HE2 - 03) HE3 - 04) HE4. 

- Figure 9. Alignements nucleiques entre le domaine gag de HERV- 
7q et les domairies cprrespondants appartenant a la meme famille. Compafaison avec 

des fragments de domaines gag isoles d 'agents retro viraux infectieux. Sequences 

V- % - " ^f^'<J ■ // 

d'origine retrovirale infectieuse: N° d'accession dans la banque de'dbnriees EMBL : 

1 ) A r 60168 - 2) A60201 - 3) A60200 - 4) A60171. Sequenc^s^retrovird 

humaines: 5)vHERV-7q - 6) HG11 - 7) HG3. Les chiffres indiques dansdes sequences 

endogenes, correspondent au nombre de nucleotides inseres afin d'optimiser 

Falignement avec les sequences de: type gag identifiees dans des retrovirus d'origine 

infectieuse. 

- Figure 10. Alignement d'un motif gag proteique deduit (haut) 
appartenant a un retrovirus infectieux (N° d'accession EMBL : A60200) avec le motif 
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gag proteique deduit (bas) identifie dans HERV-7q. Les codons non-sens sont en gras 
et soulignes. Les acides amines identiques sont specifies par 2 tirets. Un tiret indique 
une deletion ou un acide amine homologue. 

- Figure 11. Alignement d'un motif env (haut) appartenant a un 
5 retrovirus infectieux (N° d'accession EMBL : A601 70) avec le motif env (bas) identi- 
fie dans HERV-7q. Les nucleotides homologues sont specifies par deux points et les 
deletions par un tiret. 

- Figure 12. Comparaison entre le domaine env de HERV-7q (haut) 
et le domaine env de HERV-9 (bas). L'homologie de 66 % se limite a la region 3' du 

0 domaine env de HERV-7q et HERV-9, respectivement entre les nucleotides 8976 nt et 
9500 nt de HERV-7q et les nucleotides 2898 nt et 3465 nt de HERV-9 (N° 
d'accession a GenBank : X57147). De nombreuses insertions/deletions sont aussi 
observees. 

- Figure 13. Comparaison entre les domaines de type env, de HERV- 
5 7q et d'une sequence retrovirale infectieuse exogene (n° d'accession EMBL : 

A60170). 

II doit etre bien entendu, toutefois, que ces exemples sont donnes 
uniquement a titre d' illustration de l'objet de l'invention, dont ils ne constituent en 
aucune maniere une limitation. 

EXEMPLE 1 : Detection, par amplification genique, d'une sequence nucleique 
appartenant a un domaine de type gag ou env selon l'invention, dans un echan- 
tillon d'ADN genomique d'origine humaine ou de mammiferes. 

L' amplification genique s'effectue a partir d'ADN genomique isole 
a partir du sang. Un traitement anticoagulant est effectue avec 1 ml d'une solution de 
citrate (pour un litre : 4,8 g de d'acide citrique, 13,2 g de citrate de sodium, 14,7 g de 
glucose) pour 6 ml de sang frais. Apres centrifugation de 20 ml de sang pendant 15 
mn a 13.0000 g, le surnageant est elimine et la fraction enrichie en globules blancs est 
transferee dans un nouveau tube, puis recentrifugee dans les memes conditions que 
precedernment. La fraction enrichie en globules blancs est resuspendue dans un 
tampon d'extraction (10 nm Tris-HCl, 0,1 M EDTA, 20 ug/ml de RNAse pancreatique 
traitee afin d'eliminer les DNAses, 0,5 % SDS, pH 8,0), puis incubee pendant 1 heure 
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a 37°C. La proteinase K est ajoutee a une concentration finale de 100 ng/ml. La 
suspension des cellules lysees est incubee a 50°C durant 3 heures sous agitation perio- 
dique, puis traitee par un volume egal de phenol equilibre par du Tris-HCl 0,5 M, pH 
8,0. L'emulsion formee est placee sur une roue pendant une heure, puis centrifiigee a 
5 5000 g pendant 15 mn a temperature ambiante. La solution aqueuse est traitee depro- 
teinise par une triple extraction phenolique afin d'obtenir un niveau de purification 
correspondant a un rapport final d'absorbance A260/A280 superieur a 1,75. La frac- 
tion aqueuse est precipitee par 0,2 vol. d'acetate de sodium 10 M et 2 vol. d'ethanol. 
L'ADN est alors soit preleve avec 1'extremite d'une pipette pasteur recourbee, soit 

10 centrifuge a 5000 g pendant 5 mn a temperature ambiante. L'ADN ou le culot d'ADN 
est lave deux fois par de l'ethanol a 70 %, puis repris dans 1 ml de TE pH 8,0 afin 
d'etre elue sous agitation douce pendant 12 a 24 heures. 

Des oligonucleotides specifiques des sequences endogenes decrites 
selon T invention sont choisis pour amplifier la region gag ou env des regions retro- 

15 virales endogenes decrites selon l'invention. L'ADN genomique etudie provient de 
patients presentant des pathologies comme la sclerose en plaques et d'individus repu- 
tes sains. 

Les ADN polymerases thermostables utilisees ont ete choisies pour 
leur grande fidelite lors du processus d' amplification, comme la Vent, ADN polyme- 
20 rase (Biolabs) ou equivalent, et sont utilisees selon les conditions preconisees par le 
fournisseur. 

La strategic d'amplification utilise selon les cas une simple PCR, ou / 
une PCR nichee ou semi-nichee. . ,. v -> // 

"\\ s Oligonucleotides utilises pour amplifier la region ^ag^: v ^ 

25 t - amorce GIF, sens, localisee dans la region ampnt du domaine gag 

de HERV-7q.(SEQ ID NO: 30), ; ^ ^ 3 ^ 

? amorce GIR, anti-sens, localisee dans la-regibn 3' terminale du 
domaine gag (SEQ ID NO:31), /. : , - z r 

Le fragment de 1505 nt amplifie par le couple G1F-G1R : 1505 nt 
30 est utilise afin de generer les sondes aptes a hybrider les differents produits 
d'amplification des PCR. 
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- amorce G2F, sens nichee (SEQ ID NO:32), 

- amorce G2R, anti-sens nichee (SEQ ID NO:33), 

- amorce G4F, sens nichee (SEQ ID NO:34), 

- amorce G3F, sens nichee (SEQ ID NO:35), 

5 - amorce G4R, anti-sens nichee (SEQ ID NO:36), 

- amorce G5R, anti-sens nichee (SEQ ID NO:37), 
Oligonucleotides utilises pour amplifier la region env de HERV-7q : 

- amorce E1F, sens (SEQ ID NO:38), 

- amorce E1R, anti-sens (SEQ ID NO:39), 

10 Le fragment de 2529 nt amplifie par le couple d'amorces E1F-E1R, 

est utilise afin de generer les sondes aptes a hybrider les differents produits 
d' amplification des PCR. 

- amorce E2F, sens (SEQ ID NO:40), 

- amorce E2R, antisens (SEQ ID NO:41), 
1 5 - amorce E3F, sens (SEQ ID NO:42), 

- amorce E3R, anti-sens (SEQ ID NO:43), 

- amorce E4F, sens (SEQ ID NO:44), 

- amorce E4R, anti-sens (SEQ ID NO:45), 

- amorce E5F, sens (SEQ ID NO:46), 
20 - amorce E6F, sens(SEQ ID NO:47) 

- amorce E5R(SEQ ID NO:48). 

- amorce ExF (SEQ ID NO:49) 

- amorce ExR (SEQ ID NO:50) 

La PCR est realisee a partir de 50 a 200 ng d'ADN genomique. Les 
25 conditions de PCR sont celles preconisees par le fournisseur. Les conditions cycliques 
d'amplification sont realisees dans 50 ^1 : une denaturation de 94°C pendant 1 min., 
une hybridation de 70°C pendant 1 min., et une elongation a 72 °C pendant 1 a 2 min., 
selon les fragments amplifies. Apres 35 cycles, une reaction terminale est menee a 
72°C pendant 10 min. Le sequencage automatique des echantillons amplifies est rea- 
30 lise a l'aide d'un sequenceur Applied Biosystems de type ABI 377 ou autre modele 
comparable, selon les protocoles fournis par le constructeur. 
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Dans le cas d'une PCR nichee ou semi-nichee, les memes conditions 
experimentales sont utilisees, a la seule difference que F echantillon d'ADN geno- 
mique est remplace par 5 a 10 jal du produit d' amplification issu de la premiere PCR. 

Deux amplifications independantes sont realisees a partir du meme 
5 echantillon. Une reaction de controle est realisee en remplafant Fechantillon d'ADN 
par de l'eau afin de detecter d'eventuels contaminants. 

EXEMPLE 2 : Detection par amplification genique d'une sequence nucleique 
selon Pinvention dans un echantillon biologique d'ADN genomique preleves chez 
des patients presentant une pathologic candidate declaree ou la suspicion de cette 
0 pathologic 

Le protocole d' amplification est le meme que dans Texemple 2, mis 
a part l'origine de Fechantillon qui provient de patients presentant une pathologie 
candidate. Un echantillon d'ADN genomique repute normal est systematiquernent 
iritegre dans 1' ensemble des echantillons pathologiques amplifies puis analyses. 

5 Les produits de PCR sont separes sur un gel d'agarose a 1,5 %, puis 

transferes en presence de soude 0,4 N sur une membrane de nylon charge. Une hybri- 
dation est realisee avec une sonde specifique correspondant aux fragments de PCR 
amplifies soit par les couples GIF-GIR soit par le couple E1F-E1R. La sonde est 
marquee par incorporation de dUTP-digoxygenine selon le protocole du foumisseur 
(Boehringer Mannheim). L'hybridation est effectuee dans un tampon d'hybridation , 
(5XSSC, 50 % formamide, 0,1 % lauroyl-sarcosine, 0,02 % SDS, 2 % de reactif de 
blocage Boehringer) pendant une nuit a 42°C. Le Southern est lave 2 fois 5 min. a 

, temperature ambiante dans une solution de 2XSSC, 0,1% SDS. Puis un lavage a haute 



stringence est effectue a deux reprises pendant 15 min. a 55°C^1dans > une solution 



0,1XSSC, 0,1 % SDS. L'hybridation est revelee selon^le/^rp^cofe du^fournisseur 



(Boehringer Mannheim), en presence d'un substrat chimiolummescent^e la phospha- 



tase alcaline, de lype CSPD ou CDP-STAR. Le filtre est reyele'apres une exposition 

de 15min. a 60 min. ' ^ - - ^ 

Une analyse par SSCP (« single strand conformation polymor- 
phism ») permet de detecter des modifications discretes de la sequence des fragments 
amplifies par PCR. La PCR est menee en presence de dCTP marques au P 32 . L'echan- 
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tillon a analyser est denature a 95°C pendant 10 min., en presence de tampon de 
charge, puis immediatement charge sur un gel de polyacrylamide a 10%, contenant 
7.5% de glycerol. La migration s'effectue a 4°C a 8-10 W. Le gel est seche puis auto- 
radiographic. 

5 Les fra gments de PCR susceptibles de presenter une alteration de 

leur sequence nucleotidique sont sequences selon l'exemple 2. 

Une hybridation a 1'aide d'un oligonucleotide specifique (17 mers a 
20 mers) correspondant a la region nucleotidique modifiee permet d'identifier les 
echantillons presentant une modification identique (methode ASO). Brievement le 
10 southern est hybride avec un oligonucleotide marque distalement soit au P» soit en 
presence de digoxygenine (selon le protocole de Boehringer Mannheim) puis lave 
dans des conditions stringentes a 65%C dans une solution 6XSSC, 0.05% pyrophos- 
phate de sodium. 

EXEMPLE 3 : Detection d'une proteine selon l'invention dans un echantillon 
15 biologique. 

- Preparation d'une fraction proteique purifiee de liquide cephalo- 
rachidien de patients atteints de SEP 

Apres un traitement a 56°C pendant 30 mih, et elimination des 
immunoglobulines sur une colonne de proteine G HiTrap (Pharmacia), l'equivalent de 

20 10 ml de LCR est depose sur une colonne de DEAE Sepharose CL-6B (Pharmacia). 
L'elution est realisee en Tris-HCl 20 mM pH 8,8, et un gradient de 0 a 0,4 M de NaCl, 
puis la fraction est dialysee 2 fois contre du tampon phosphate-NaCl (PBS). Apres 
concentration sur Ultrafree-MC (Millipore), la fraction est deposee sur une colonne de 
Superose 12 (FPLC Pharmacia) et eluee en presence de PBS. Apres separation par 

25 electrophorese en gel de polyacrylamide-SDS, et electo-transfert sur une membrane 
d'Immobilon-P (Millipore), les bandes proteiques sont soumises a une hydrolyse 
trypsique menagee. 

- Analyse de la fraction proteique par spectrometrie de masse 
Les peptides digeres en presence de trypsine, sont analyses par la 
30 methode de MALDI-TOF, qui permet l'analyse de peptides presents en melange. 
(COTTRELL J.S., Pept. Res., 1997, 7, 1 15-124). Les peptides caracterises en fonction 
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de leur masse sont compares aux proteines et aux proteines associees selon 
T invention. 

EXEMPLE 4 : Detection d'anticorps specifiques anti-domaine env de HERV-7q. 

L'identification d'un long cadre de lecture ouvert au sein de la 
sequence env de HERV-7q, a permis de determiner une sequence proteique deduite 
SEQ ID NO:23, SEQ ID NO:25, SEQ ID NO:27, SEQ ID NO:28, SEQ ID NO:29 
d'une region dudit gene, referencee par SEQ ID NO:22. 

Les sequences de proteines deduites des sequences ID NO:23, 25, 
27, 28 et 29 sont positionnees comme suit par rapport a la figure 1 ou a la sequence ID 
NO:3 : 

SEQ ID NO: 23 : debut de la sequence codante : position 7874, fin de 
la sequence codante 1 CT codon non-sens (position 9493) 

SEQ ID NO:25 : debut de la sequence codante : position 7874, fin de 
la sequence codante l er codon non-sens (position 9493) (cadre de lecture 1) 

SEQ ID NO:27 : debut de la sequence codante : position 6970, fin de 
la sequence codante l er codon non-sens (position 9493) (cadre de lecture 1) 

SEQ ID NO:28 : debut de la sequence codante ; position 6971, la fin 
du cadre de lecture est decalee selon le cas de 1 , 2 ou 3 codons 

SEQ ID NO:29 : debut de la sequence codante : position 6972, la fin 
du cadre de lecture est decalee selon le cas de 1, 2 ou 3 codons 

Differents peptides correspondant a tout ou partie des . SEQ ID 
NO:23, SEQ ID.NO:25, SEQ ID NO:27, SEQ ID NO:28, SEQ ID NO:29- ont ete/ 
^synthetises par genie genetique afin de tester leur specificite antigenique vis a vis de 
sera ou de tissus de patients atteints de SEP, par exemple. Brievemeht, tout oupartie 
de la region env de HERV-7q est sous clonee dans les vecteiirs pQE30, 3L*er32. Les 

Vv ^ ■ ; ,-, v ^ , _ o - 'x^ 

vecteurs pQE30, 31 et 32 contiennent en 5' du multi-site de clonage^les sequences 
consensuelles pour la v transcription (le promoteur fort du bacteriophage T5, 2 opera- 
teurs de Toperon lactose), la traduction (un-site. d f aecrbchage ribosomal synthetique). 
De meme, pQE30, 31 et 32 possedent en 3', le terminateur de transcription du phage 1 
ainsi qu'un codon "Stop" pour la traduction. L'expression de la proteine s'effectue 
apres transformation dans E. coli Ml 5. Le plasmide pQE30, 31 et 32 possedent en 
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amont du site de polyclonage la sequence codante pour une suite de 6 histidines 
presentant une affinite pour les ions nickel. Cet enchainement permet la purification 
de la proteine chimerique exprimee, par adsorption sur une resine constitute d'un 
ligand chelatant, I'acide nitrilotriacetique (NTA), charge de 4 ions nickel (resine NI- 
5 NTA, Qiagen). 

La transformation s'effectue par electroporation ou traitement au 
chlorure de calcium. Par exemple, une colonie d'E. coli Ml 5 est incubee dans 100 ml 
de milieu LB contenant 250 jig de kanamycine, sous agitation a 37°C jusqu'a 
1'obtention d'une DO 600 de 0,5. Apres une centrifugation de 5 minutes a 2000g a 4°C, 
10 le culot bacterien est repris dans 30 ml de solution TFB1 (100 mM de chlorure de 
rubinium, 50 mM de chlorure de manganese, 30 mM d'acetate de potassium, 10 mM 
CaC12, 15% glycerol, pH 5.8), a 4°C pendant 90 minutes. Apres une centrifugation de 
5 minutes a 2000g a 4°C, le culot bacterien est repris dans 4 ml .de solution TFB2 (10 
mM de chlorure de rubidium, 10 mM de MOPS, 75 mM CaC12, 15% de glycerol , pH 
1 5 8). Les cellules peuvent etre gardees a -70°C par aliquot de 500 ml. 20 nl de la ligation 
et 125 fxl de cellules competentes sont melanges et places dans la glace 20 minutes. 
Apres un choc thermique de 42°C pendant 90 secondes, les cellules sont agitees 90 
minutes a 37°C dans 500 ml de milieu Psi-broth (milieu LB complemente par 4 mM 
de MgS0 4 , lOmM de chlorure de potassium). Les cellules transformees sont etalees 
20 sur des boites LB-agar complementers par 25 ug/ml de kanamycine, et lOOjag/ml 
d'ampicilline, et les boites sont incubees une nuit a 37°C. 

Les clones potentiellement recombinants sont repiques de maniere 
ordonnee sur un filtre de nylon depose sur une boite LB-agar complementee par 25 
jag/ml de kanamycine et 100 |xg/ml d'ampicilline. Apres une nuit a 37°C, les clones 
25 recombinants sont reperes par hybridation de l'ADN plasmidique avec la sonde 
nucleotidique amplifiee par PCR avec le couple d'amorces selon SEQ ID NO:38 et 
SEQ ID NO:39. 

Une colonie independante, contenant l'insert, est inoculee a 20 ml de 
milieu LB complementee par 25 ng/ml de kanamycine et 100 u.g/ml d'ampicilline. 
30 Apres une nuit a 37°C sous agitation, 500 ml de meme milieu sont incubes au 1/50° 
par cette preculture jusqu'a 1'obtention d'une DO 600 de 0,8, puis 1 a 2 mM final d'IPTG 
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est ajoute. Apres 5 heures, les cellules sont centrifugees 20 minutes a 4000 g. 

Une partie du culot cellulaire est repris dans 5 ml de tampon de 
sonication (50 mM de phosphate de sodium pH 7,8, 300 mM NaCl) puis place dans la 
glace. Apres une rapide sonication, les cellules sont centrifugees 20 minutes a 
5 10000 g. Une partie du culot cellulaire est repris dans 10 ml d'une solution 30 mM 
Tris/HCl-20% sucrose pH8. Les cellules sont incubees 5 a 10 minutes sous agitation, 
apres adjbnction de 1 mM EDTA. Apres une centrifugation de 10 minutes a 8000 g a 
4°C, le culot est repris dans 10 ml de 5 mM de MgS04 glace. Apres 10 minutes dans 
la glace sous agitation, les cellules sont centrifugees 10 minutes a 8000 g a 4°C. 
10 Le culot est repris par 5 ml/g dans du tampon A (6 M GuHCl 

(chlorhydrate de guanidine), 0,1M phosphate de sodium, 0,0 1M Tris/HCl, pH 8), 1 
heure a temperature ambiante. Le lysat est centrifuge 15 minutes a 10000 g a 4°C, et le 
surnageant est complements par 8 ml de resine Ni-NTA, preequilibree dans du tampon 
A. Apres 45 minutes a temperature ambiante, la resine est coulee dans une colonne, 
15 lavee par 10 fois le volume de la colonne par du tampon A puis par 5 fois le volume 
da la colonne par du tampon B (8 M uree, 0,1 M phosphate de sodium, 0,01 M 
Tris/HCl ? pH 8). La colonne est lave par du tampon C (8 M uree, 0,1M phosphate de 
sodium, 0,01 M Tris/HCl, pH 6,3) jusqu'a ce que 1 ! A280 soit inferieur a 0,01. La 
proteine recombinante est eluee par 10 a 20 ml de tampon D (8 M uree, 0,1 M 
20 phosphate de sodium, 0,0 1 M Tris/HCl, pH 5,9) puis par 1 0 a 20 ml de tampon E (8 M 
uree, 0,1 M phosphate de sodium, 0,01 M Tris/HCl, pH 4,5), puis par 20 ml de tampon 
F (6 M HC1, 0,2 M acide acetique). Apres une analyse en SDS-PAGEJ la ou les 

V fractions purifiees contenant la proteine chimerique ont perrriis l'obtention d'anticorps 

\\ ,y ^ " • ' ,/cf "XX ■ // 

chez le lapin. Les anticorps obtenus sont testes par Western-blot apres^revelatiqh^par 

X s ' ~ X' / ^X^X^X J^/^ 

25 un anticorps secondaire couple a la phosphatase alcaline. XX \> ^ 

xx, " . / ■ - , . >■ xy v x' xx • 

* v < Des anticorps sont obtenus de la meme.maniere, a partir de peptides 
'"-^ ■'^ ■ ■ s - ^ ' .S' 

synthetises chimiquement selon la technique de Merrifield *{Q. Bar any and B. 

Merrifield, 1980, dans The peptides, 2, 1-284, E. Gross et J. Meienhofer, Academic 

Press, New York). 

30 Les anticorps specifiques obtenus sont utilises a fin de detection de 

F expression serique ou tissulaire de tout ou partie des sequences retrovirales endo- 
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genes selon l'invention, dans les cas normaux et pathologiques. 

Les proteines d'origine serique ou tissulaire, sont separees sur gel 
d'acrylamide-SDS puis transferees sur un filtre de nitrocellulose a l'aide d'un appareil 
Novablot 2117-2250 (LKB). Le transfert est effectue sur une feuille de Hybond C- 
5 extra (Amersham) en utilisant un tampon CAPS 100 mM pH 11, methanol, eau 
(V/V/V: 1/1/8) contenant 1 mM de CaCl2- Apres un transfert de 1 heure a 0,8 
mA/cm 2 , la feuille est saturee une heure a temperature ambiante dans du PBS-0,5 % 
gelatine. La feuille est mise en presence de I'anticorps specifique a la concentration de 
1/1000 dans du PBS-0,25 % gelatine. Au bout de 2 heures, le filtre est lave 3 fois 15 
10 minutes dans du PBS-0,1 % de Tween-20, puis le filtre est incube 30 minutes en 
presence d'un anticorps secondaire couple a la phosphatase alcaline (Promega), dilue 
au 1/7500 dans du PBS-0,25% gelatine. Apres trois lavages dans du PBS-0,1 % de 
Tween-20, le filtre est equilibre dans un tampon (100 mM de Tris-HCl pH 9,5, 100 
mM de NaCl, 5 mM de MgCl2). La revelation est effectuee en presence de 45 de 
15 NBT a 75 mg/ml et 35 jil de BCIP a 50 mg/ml, pour 10 ml de tampon de phosphatase 
alcaline. 

Les proteines chimeriques obtenues par genie genetique, sont utili- 
sees aussi a fin de tests d'activite biologique, comme par exemple pour le test 
d'activite biologique du peptide de type CKS-17 identifie dans le domaine env de 
20 HERV-7q (figure 5). 

EXEMPLE 5 : Obtention de sondes ribonucleiques codant pour les sequences env 
de HERV-7q. 

Les fragments de PCR obtenus sont sous clones dans le plasmide 
PGEM 4Z (Promega) qui possede de par et d'autre de son site de polyclonage, les 
25 sequences promotrices pour les ARN polymerase SP6 et T7. 

La methode de competence utilisee est l'electroporation. Le plasmide 
et le fragment de PCR sont hybrides dans un rapport de 50 ng de vecteur (coupe a Sma 
I) pour 100 ng de fragment de PCR (rendu a bout franc par traitement par le fragment 
de Klenow de 1'ADN polymerase). L'incubation a lieu une nuit a 22°C, dans le 
30 tampon de ligation (66 mM Tris-HCl pH 7,5, 5. mM MgC12, 1 mM dithioerythritol, 
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1 mM ATP) en presence de lu. de T4 ADN ligase puis est arretee par denaturation 10 
minutes a 65°C. Parallelement, la souche d'E. Coli JM 105 est ensemencee une nuit a 
37°C dans du milieu LB. Cette preculture est diluee au 1/500 et placee a 37°C jusqu'a 
une DO 600 egale a 1. Pour la suite du mode operatoire les cellules seront toujours 
5 conservees au froid. Apres une centrifugation de 5 minutes a 3500 g a 4°C, le culot 
cellulaire est resuspendu dans 1/4 vol. d'eau glacee ultra-pure. Cette etape est repetee 5 
a 6 fois. Puis le culot est resuspendu dans 1/4000 vol. d'eau; 10 % de glycerol sterile 
sont ajoutes permettant la conservation des cellules electrocompetentes, par aliquots 
de 10 (al a 20°C. A 50 jal de cellules electrocompetentes est ajoute 1 p.1 de la ligation ; 

10 le tout est soumis a une decharge electrique de 12,5 kV/cm, appliquee pendant 5,8 ms. 
Les cellules sont rapidement remises en suspension dans le milieu SOC, incubees 1 
heure a 37°C, puis etalees, en presence de 2% X-Gal dans du dimethylformamide, et 
10 mM d'IPTG, sur une boite de gelose LB-agar supplements en ampicilline (100 
jag/ml). Apres une nuit a 37°C, les clones blancs potentiellement recombinants, sont 

1 5 repiques de maniere ordonnee sur une boite LB/ampicilline et parallelement sur un 
filtre de nylon depose sur une boite LB/ampicilline. Ces deux boites sont incubees une 
nuit a 37°C. Les clones recombinants sont alors reperes par hybridation avec une 
sonde nucleique amplifiee par PCR avec le couple d'amorces selon SEQ ID NO:38 et 
SEQ ID NO:39 et marquee a la digoxygenine. 

20 Les clones recombinants sont cultives dans 50 ml de milieu 

LB/ampicilline (100 |j,g/ml) en agitation pendant une nuit a 37°C. Apres une centrifu- 
A gation a 3500 g pendant 15 minutes a 4°C, le culot bacterien est repris dans 4ml de 
tampon PI (50 mM Tris-HCl, l OmM EDTA, 400 |ig/ml RNase A, pH .8) et 4ml : 4e 
tampon P2 (200 mM NaOH, 1 % SDS). Le melange est incube a temperature ambiante 

25 pendant 5 minutes.- Apres adjonction de 4ml de tampon P3 (2,55 M d^cetate^de potas- 

' ■ /'' ^ V v ^ " sty' 

sium, pH 4,8). le melange est centrifuge a 12000 g pendant 30 minutes a 4°C. Le 

; • ' -../ \\ : ■ ' " ^< , 

surnageant est applique sur une colonne Qiagen-type 100,^pre;equilibree avec 2 ml de 

tampon QBT (750 mM NaCl, 50 mM MOPS,- 1 5% ethanol, pH 7), la colonne est lavee 

avec 2 fois 4ml de tampon QC (1M NaCl, 50 mM MOPS, 15 % ethanol, pH 7) et 

30 l'ADN est elue avec 2ml de tampon QF (1,2 M NaCl, 50mM MOPS,' 1 5 % ethanol, pH 

8), L'ADN est precipite avec 0,8 vol. d'isopropanol, et centrifuge a 12000 g a 4°C 



pendant 30 minutes. Le culot est lave avec de l'ethanol a 70 % glace, puis l'ADN 
plasmidique est repris par 2 fois 150 jal de tampon TE. 

Les sondes ribonucleiques sont utilisees comme sondes specifiques, 
en particulier pour la detection des transcrits exprimes par les sequences retrovirales 
5 endogenes selon Tinvention. 
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Ainsi que cela ressort de ce qui precede, 1' invention ne se limite 
20 nullement a ceux de ses modes de mise en oeuvre, de realisation et d' application qui 
viennent d'etre decrits de fa9on plus explicite ; elle en embrasse au contraire toutes les 
■Vs. variantes qui peuvent venir a 1' esprit du technicien en la matiere, sans s'ecarter du 



cadre, hi de la portee, de la presente invention. 
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LISTE DE SEQUENCES 



(1) INFORMATIONS GENE RALES : 



(i) DEPOSANT: 

(A) NOM: INSTITUT NATIONAL DE LA RECHERCHE MED I GALE - 

INSERM 

(B) RUE: 101 RUE DE TOLBIAC 

(C) VILLE: PARIS 

(E) PAYS: FRANCE 

(F) CODE POSTAL: 75654 CEDEX 

(ii) TITRE DE L ' INVENTION : FAMILLE DE SEQUENCES NUCLEIQUES ET DE 
SEQUENCES PROTEIQUES DEDUITES PRESENTANT DES MOTIFS RETROVIRAUX ENDOGENES 
HUMAINS ET LEURS APPLICATIONS. 

(iii) NOMBRE DE SEQUENCES: 51 

(iv) FORME DECHIFFRABLE PAR ORDINATEUR: 

(A) TYPE DE SUPPORT: Floppy disk 

(B) ORDINATEUR: IBM PC compatible 

(C) SYSTEME D 1 EXPLOITATION: PC-DOS /MS-DOS 

(D) LOGICIEL: Patentln Release #1.0, Version #1.30 (OEB) 

(2) INFORMATIONS POUR LA SEQ ID NO: 1: 7env 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 2599 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS : simple 
<D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 1: 

ATCCCCTGCC TTAATCGCCA AGCTCCTTCA GGAGAACAAA GAACAGGCCA TTACCCTGGA 60 

GAAGACTGGC AACTGATTTT ACCCACAAGC CCAAACCTCA GGGATTTCAG TATCTACTAG 120 

TCTGGGTAGA TACTTTCACG GGTTGGGCAG AGGCCTTCCC CTGTAGGACA GAAAAGGCCC 180 

AAGAGGTAAT AAAGGCACTA GTTCATGAAA TAATTCCCAG ATTCGGACTT CCCCGAGGCT 240 

TACAGAGTGA CAATAGCCCT GCTTTCCAGG CCACAGTAAC CCAGGGAGTA TCCCAGGCGT 300 

TAGGTATACG ATATCACTTA CACTGCGCCT GAAGGCCACA GTCCTCAGGG AAGGTCGAGA 3 60 

AAATGAATGA AACACTCAAA GGACATCTAA AAAAGCAAAC CCAGGAAACC CACCTCACAT 420 

GGCCTGCTCT GTTGCCTATA GCCTTAAAAA GAATCTGCAA CTTTCCCCAA AAAGCAGGAC 4 80 

TTAGCCCATA CGAAATGCTG TATGGAAGGC CCTTCATAAC CAATGACCTT GTGCTTGACC 54 0 

CAAGACAGCC AACTTAGTTG CAGACATCAC CTCCTTAGCC AAATATCAAC AAGTTCTTAA 600 

AACATTACAA GGAACCTATC CCTGAGAAGA GGGAAAAGAA CTATTCCACC CTTGTGACAT 660 

GGTATTAGTC AAGTCCCTTC CCTCTAATTC CCCATCCCTA GATACATCCT GGGAAGGACC 720 

CTACCCAGTC ATTTTATCTA CCCCAACTGC GGTTAAAGTG GCTGGAGTGG AGTCTTGGAT 780 

ACATCACACT TGAGTCAAAT CCTGGATACT GCCAAAGGAA CCTGAAAATC CAGGAGACAA 84 0 
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CGCTAGCTAT 


TCCTGTGAAC 


CTCTAGAGGA 


TTTGCGCCTG 


CTCTTCAAAC 


AACAACCAGG 


900 


AGGAAAGTAA 


CTAAAATCAT 


AAATCCCCAT 


GGCCCTCCCT 


TAT CAT AT TT 


TTCTCTTTAC 


960 


TGTTCTTTTA 


CCCTCTTTCA 


CTCTCACTGC 


ACCCCCTCCA 


TGCCGCTGTA 


TGACCAGTAG 


1020 


CTCCCCTTAC 


CAAGAGTTTC 


TATGGAGAAT 


GCAGCGTCCC 


GGAAATATTG 


ATGCCCCATC 


1080 


GTATAGGAGT 


CTTTCTAAGG 


GAACCCCCAC 


CTTCACTGCC 


CACACCCATA 


TGCCCCGCAA 


1140 


CTGCTATCAC 


TCTGCCACTC 


TTTGCATGCA 


TGCAAATACT 


CATTATTGGA 


CAGGAAAAAT 


1200 


GATTAATCCT 


AGTTGTCCTG 


GAGGACTTGG 


AGTCACTGTC 


TGTTGGACTT 


ACTTCACCCA 


1260 


AACTGGTATG 


TCTGATGGGG 


GTGGAGTTCA 


AGATCAGGCA 


.AGAGAAAAAC 


ATGTAAAAGA 


1320 


AGTAATCTCC 


CAACTCACCC 


GGGTACATGG 


CACCTCTAGC 


CCCTACAAAG 


GACTAGATCT 


1380 


CTCAAAACTA 


CATGAAACCC 


TCCGTACCCA 


TACTCGCCTG 


GTAAGCCTAT 


TTAATACCAC - 


. 1440 


CCTCACTGGG 


CTCCATGAGG 


TCTCGGCCCA 


AAACCCTACT 


AACTGTTGGA 


TATGCCTCCC 


1500 


CCTGAACTTC 


AGGCCATATG 


TTTCAATCCC 


TGTACCTGAA 


CAATGGAACA 


ACTTCAGCAC 


1560 


AGAAATAAAC 


ACCACTTCCG 


TTTTAGTAGG 


ACCTCTTGTT 


TCCAATCTGG 


AAATAACCCA 


1620 


TACCTCAAAC 


CTCACCTGTG 


TAAAATTTAG 


CAATACTACA 


TACACAACCA 


ACTCCCAATG 


1680 


CATCAGGTGG 


GTAACTCCTC 


CCACACAAAT 


AGTCTGCCTA 


CCCTCAGGAA 


TATTTTTTGT 


1740 


CTGTGGTACC 


TCAGCCTATC 


GTTGTTTGAA 


TGGCTCTTCA 


GAATCTATGT 


GCTTCCTCTC 


1800 


ATTCTTAGTG 


CCCCCTATGA 


CCATCTACAC 


TGAACAAGAT 


TTATACAGTT 


. ATGTCATATC 


1860 


TAAGCCCCGC 


AACAAAAGAG 


TACCCATTCT 


TCCTTTTGTT 


ATAGGAGCAG 


GAGTGCTAGG 


1920 


TGCACTAGGT 


ACTGGGATTG 


GCGGTATCAC 


AACCTCTACT 


CAGTTCTACT 


ACAAACTATC 


1980 


TCAAGAACTA 


AATGGGGACA 


TGGAACGGGT 


CGCCGACTCC 


CTGGTCACCT 


TGCAAGATCA 


2040 


ACTTAACTCC 


CTAGCAGCAG 


TAGTCCTTCA 


AAATCGAAGA 


GCTTTAGACT 


TGCTAACCGC 


2100 


TGAAAGAGGG 


GGAACCTGTT 


TATTTTTAGG 


GGAAGAATGC 


TGTTATTATG 


TTAATCAATC. 


2160 


CGGAATCGTC 


ACTGAGAAAG 


TTAAAGAAAT 


TCGAGATCGA 


ATACAACGTA 


GAGCAGAGGA 


2220 


GCTTCGAAAC ACTGGACCCT 


GGGGCCTCCT 


CAGCCAATGG 


ATGCCCTGGA 


TTCTCCCCTT 


2280/ 


x CTTAGGACCT 


CTAGCAGCTA 


TAATATTGCT 


ACTCCTCTTT 


GGACCCTGTA" 


TCTTTAACCT 


: - 23 4 0 



^CCTTGTTAAG'.TT/TGTCTCTT CCAGAATCGA AGCTGTAAAA CTACAAATGG . AGCCCAAG AT, (• , ; 24 00 // 

■\n .' : , ■ - ' -" X\ xV -- // 

GCAGT CCAAG ACT AAG AT C T ACCGCAGACC CCTGGACCGG CCTGCTAGCC CACGATCTGA 24-6.0 . 
TGTTAATGAC ATCAAAGGCA CCCCTCCTGA GGAAATCTCA GCTGCACAAC, CTCTACTACG ^>2520 
CCCCAATTCA V GCAGGAAGCA GTTAGAGCGG TCTCGGCCAA 'CCTCCGCAAC AGCACTTAGG 2580 
TTTTCCTGTT GAGATGGGG ^ V*-"' 2599 

(2) INFORMATIONS POUR LA ' SEQ ID. NO : 2 gag . 7 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 1326 paires de bases 

(B) TYPE: nucleotide • f 

(C) N OMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 
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(ii) TYPE DE MOLECULE: ADN (genomique) 

<xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 2: 

GCCGCCTGGC ACTCCTGAGG GAAGTATAAA TTATAACACC ATCTTACAGC TAGACCTCTT 60 

TTGTAGAAAA GGCAAATGGA GTGAAGTGCC ATAAGTACAA ACTTTCTTTT CATTAAGAGA 120 

CAACTCACAA TTATGTAAAA AGTGTGATTT ATGCCCTACA GGAAGCCTTC AGAGTCTACC 180 

TCCCTATCCC AGCATCCCCG ACTCCTTCCC CAACTAATAA GGACCCCCCT TCAACCCAAA .24 0 

TGGTCCAAAA GGAGATAGAC AAAAGGGTAA ACAGTGAACC AAAGAGTGCC AATATTCCCC 300 

AATTATGACC CCTCCAAGCA GTGGGAGGAA GAGAATTCGG CCCAGCCAGA GTGCATGTGC 360 

CTTTTTCTCT CCCAGACTTA AAGCAAATAA AAACAGACTT AGGTAAATTC TCAGATAACC 4 20 

CTGATGGCTA TATTGATGTT TTACAAGGGT TAGGACAATT CTTTGATCTG ACATGGAGAG 4 80 

ATATAATGTC ACTGCTAAAT CAGACACTAA CCCCAAATGA GAGAAGTGCC ACCATAACTG 54 0 

CAGCCTGAGA GTTTGGCGAT CTCTGGTATC TCAGTCAGGT CAATGATAGG ATGACAACAG 600 

AGGAAAGAGA ATGATTCCCC ACAGGCCAGC AGGCAGTTCC CAGTCTAGAC CCTCATTGGG 660 

ACACAGAATC AGAACATGGA GATTGGTGCT GCAGACATTT GCTAACTTGT GTGCTAGAAG 720 

GACTAAGGAA AACTAGGAAG AAGTCTATGA ATTACTCAAT GATGTCCACC ATAACACAGG 7 80 

GAAGGGAAGA AAATCCTACT GCCTTTCTGG AGAGACTAAG GGAGGCATTG AGGAAGCGTG 84 0 

CCTCTCTGTC ACCTGACTCT TCTGAAGGCC AACTAATCTT AAAGCGTAAG TTTATCACTC 900 

AGTCAGCTGC AGACATTAGA AAAAAACTTC AAAAGTCTGC CGTAGGCCCG GAGCAAAACT 960 

TAGAAACCCT ATTGAACTTG GCAACCTCGG TTTTTTATAA TAGAGATCAG GAGGAGCAGG 1020 

CGGAACAGGA CAAACGGGAT TAAAAAAAAG GCCACCGCTT TAGTCATGAC CCTCAGGCAA 1080 

GTGGACTTTG GAGGCTCTGG AAAAGGGAAA AGCTGGGCAA ATTGAATGCC TAATAGGGCT 114 0 

TGCTTCCAGT GCGGTCTACA AGGACACTTT AAAAAAGATT GTCCAAGTAG AAGTAAGCCG 1200 

CCCCCTCGTC CATGCCCCTT ATTTCAAGGG AAT CACTGGA AGGCCCACTG CCCCAGGGGA 12 60 

CAAAGGTCCT CTGAGTCAGA AGCCACTAAC CAGATGATCC AGCAGCAGGA CTGAGGGTGC 1320 
CTGGGG 

(.2) INFORMATIONS POUR LA SEQ ID NO: 3: HERV-7q 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

CA) LONGUEUR : 10499 paires de bases 

CB) TYPE: nucleotide 

(C) NOMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 
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txi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 3: 
CCCTGGGGCG GGCTTCCTTT CTGGGATGAG GGCAAAACGC CTGGAGATAC AGCAATTATC 
TTGCAACTGA GAGACAGGAC TAGCTGGATT TCCTAGGCCG ACTAAGAATC CCTAAGCCTA 



60 
120 
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GCTGGGAAGG TGACCACGTC CACCTTTAAA CACGGGGCTT GCAACTTAGC TCACACCTGA 180 

CCAATCAGAG AGCTCACTAA AATGCTAATT AGGCAAAGAC AGGAGGTAAA GAAATAGCCA 240 

ATCATCTATT GCCTGAGAGC ACAGCAGGAG GGACAACAAT CGGGATATAA ACCCAGGCAT 300 

TCGAGCTGGC AACAGCAGCC CCCCTTTGGG TCCCTTCCCT TTGTATGGGA GCTGTTTTCA 3 60 

TGCTATTTCA CTCTATTAAA TCTTGCAACT GCACTCTTCT GGTCCATGTT TCTTACGGCT 4 20 

CGAGCTGAGC TTTTGCTCAC CGTCCACCAC TGCTGTTTGC CACCACCGCA . GACCTGCCGC 4 80 

TGACTCCCAT CCCTCTGGAT CCTGCAGGGT GTCCGCTGTG CTCCTGATCC AGCGAGGCGC 54 0 

CCATTGCCGC TCCCAATTGG GCTAAAGGCT. TGCCATTGTT CCTGCACGGC TAAGTGCCTG 600 

GGTTTGTTCT AATTGAGCTG AACACTAGTC ACTGGGTTCC ATGGTTCTCT TCTGTGACCC 660 

ACGGCTTCTA AT AG AAC TAT AACACTTACC ACATGGCCCA AGATTCCATT CCTTGGAATC 7 20 

CGTGAGGCCA AG AACT C C AG GTCAGAGAAT ACGAGGCTTG CCACCATCTT GGAAGCGGCC , 7 80 

TGCTACCATC TTGGAAGTGG TTCACCACCA TCTTGGGAGC TCTGTGAGCA AGGACCCCCC . 840 

GGTAACATTT TGGCAACCAC GAACGGACAT CCAAAGTGGT GAGTAATATT GGACCACTTT 900 

CACTTGCTAT TCTGTCCTAT CCTTCCTTAG AATTGGAGGA AAATACCGGG CACTTGTCGG 9 60 

CCAGTTAAAA ACGATTAGTG TGGCCACCGG ACTTAAGACT CAGGTGTGAG GCTATCTGGG 1020 

GAAGGGCTTT CTAACAACCC CCAACCCTTC TGGGTTGGGG ACTTGGTTTG CCTCAAGCCA . 1080 

GCTTCCACTT TCAGTTTTCT TGGGGAAGCC GAGGGCCGAC TAGAGGCAGA AAGCTGTCGT 114 0 

CCTGAACTCC CGGCAGTAGC CGGTTGAGAT CATGGTGTAG CCAGAAGTCT CAACAGTCGC 1200 

CCATGCATGC ACCCCTATCT TTCCTTCTGA CCCATACCTC CTGGGTCCCA ACCACAACTT 12 60 

TCTTCAAAGT GTAGCCCCAA AATTCTCCTT ACCTCTGAAT ATACTTCCTC TGATCCCTGC 1320 

CTCCTAGGTA CTATTGGTTC AGACTTCCAT -TTCCTCTAGC AAGTTGTATC ... TCCAAAGGGA 1380 

TCTAAGGAAG CTCTGCGCTG CGTCCTTAGG CACCTAGGCT ATAACCCAGG GAGTCTTATC 1440 

CCTGGTGTCC CTCCCAATTT AGGCATACAG CTCTTGACAT GGGCAGTTAT GTAGGACCCA 1500 

CTCCCCACCA CCCTTGCCAG GGCCCCAAGT TTGTAAATGG CTGAGGGAAA AGAG AGAC AG 15 60,, 

AG GAG AG AG A GAGAAATGGA GGAGAAAGAG AGAGAGACAG AGAGGAGAGA , GAGACAGTGA < 1620 

JGAGAGACAGA ;AGAGAGAGAG AGACAAAGAG GAGAGAGAGA GAGTCAAAGA' GAGAAAGAAaO 1680 // 

GAGAAAGAAA TAGTAAAAAA CAGTGTGCCC TATTCCTTTA AAAGCCAGGG TAAATTTAAA 17 40-/ 

ACCTGTACTT GATAATTGAA GGTCTTCTCT GTGACCCTAT AGCACTCCAA -TCCACTTTGT ,"18 00 

GGTCAGTGTA AATAAGAGCA TAGGCCGAAA GCACTGAGGC -CATTGACAAcXcCGTAGCTTC^ 18 60 

■ £> ■ ; v^ v " ;/ 

CCTATCAAAA ATCCTTAACC CAGTAACCCG CAGATGGACC AAATGCATTC AGTGGGTAGC 1920 

GCAACTGCTT TGCTAAAAGT AGAAAAGTAA CTTTTAGAGG AAACCTCATT*l3TGAGCACAC 1980 

CTCACCTGTT CAGAATTATT CTAATAAAAA AAGCAAAAAG GTAGCTTACT AACTCAAAAA 2 04 0 

TCTTAAAGTA TGGGGCTATT CTGTTAGAAA AAGGTAATGT AACTCCAACC ACTGATAATT 2100 

f 

CCCTTAACCC AGCAGATTTC CTAACGGGAT TTAAATCTTA ATTACCATAC AAAGGTCCGA 2160 

CCAGACCTAG GCGGAACTCC CTTCAGGACA GGACGATAGA TGGTTCCTCC CAGGTGATTG 2220 
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AGGAAAAAAA CCACAATGGG TATTCAGTAA TTGATACGGG GACTCTTGTG GAAGCAGAGT 2280 
TAGAAAAATT GCCTAATAAC TGGTCTCCTC AAACGTGTGA GCTGTTTGCA CTCAGCCAAG 234 0 
CCTTAAAGTA CTTACAGAAT CAAAAGACTA TCTCAATCCT GATTCAAAAG GTTAGCTACA 24 00 
CCCTCTCTGT AATGCATTTG CATAAGAACT TGTTTATGGG AATGCATCTT GATGGGGCAG 24 60 
CTGGGTTGTT ATAAAATAGG AACCCAGCCC AGCTCTAGGA CTCACCCCTG AGCGCAAAGG 2520 
CAATGTTGGG CATGCTGGTA AAGGACCACT AGAATCCAGC AGCCCAGACC CCTTTCTTTG 2580 
TGGTCAAGAA AGGCGGGAAA AGGGGTGCAG GACTGCTACA TCGGTAAGCA TAACTAATCC 264 0 
GATAAACAGA GGTCCATGGG TGGTTACGCA CCCTGGAAAG GAACTCACCC CTGAGCACAA 2700 
AGGCAATGTT GGGCACGCTG GTAAAGGACC ACTAGAATCC AGCAGCCTGG ACCCCTTTCT 27 60 
TTGTGGTCAA GAGAGGCAGG AAAACAGGTG CAGGACTGCA ACATCAGTGA GCATAACTAA 2820 
TTCGATAAGC AGAGGTCCAT GGGTGGTGAT GCACCCTGGA AAGAATAAGC ATTAGGACCA 2880 

TAGAGGACAC TCCAGGACTA AAGCTCATCG GAAAATGACT AGGGTTGCTG GCATCCCTAT 294 0 

GTTCTTTTTT CAGATGGGAA ACGTTCCCCG CAAGACAAAA ACGCCCCTAA GACGTATTCT 3000 

GGAGAATTGG GACCAATTTG ACCCTCAGAC ACTAAGAAAG AAACGACTTA TATTCTTCTG 3060 

CAGTGCCGCC TGGCACTCCT GAGGGAAGTA TAAATTATAA CACCATCTTA CAGCTAGACC 3120 

TCTTTTGTAG AAAAGGCAAA TGGAGTGAAG TGCCATAAGT ACAAACTTTC TTTTCATTAA 3180 

GAGACAACTC ACAATTATGT AAAAAGTGTG ATTTATGCCC TACAGGAAGC CTTCAGAGTC 324 0 

TACCTCCCTA TCCCAGCATC CCCGACTCCT TCCCCAACTA ATAAGGACCC CCCTTCAACC 3300 

CAAATGGTCC AAAAGGAGAT AGACAAAAGG GTAAACAGTG AACCAAAGAG TGCCAATATT 3360 

CCCCAATTAT GACCCCTCCA AGCAGTGGGA GGAAGAGAAT TCGGCCCAGC CAGAGTGCAT 3420 

GTGCCTTTTT CTCTCCCAGA CTTAAAGCAA ATAAAAACAG ACTTAGGTAA ATTCTCAGAT 34 80 

AACCCTGATG GCTATATTGA TGTTTTACAA GGGTTAGGAC AATTCTTTGA TCTGACATGG 354 0 

AGAGATATAA TGTCACTGCT AAATCAGACA CTAACCCCAA ATGAGAGAAG TGCCACCATA 3600 

ACTGCAGCCT GAGAGTTTGG CGATCTCTGG TATCTCAGTC AGGTCAATGA TAGGATGACA 3660 

ACAGAGGAAA GAGAATGATT CCCCACAGGC CAGCAGGCAG TTCCCAGTCT AGACCCTCAT 3720 

TGGGACACAG AATCAGAACA TGGAGATTGG TGCTGCAGAC ATTTGCTAAC TTGTGTGCTA 3780 

GAAGGACTAA GGAAAACTAG GAAGAAGTCT ATGAATTACT CAATGATGTC CACCATAACA 384 0 

CAGGGAAGGG AAGAAAATCC TACTGCCTTT CTGGAGAGAC TAAGGGAGGC ATTGAGGAAG 3900 

CGTGCCTCTC TGTCACCTGA CTCTTCTGAA GGCCAACTAA TCTTAAAGCG TAAGTTTATC 3960 

ACTCAGTCAG CTGCAGACAT TAGAAAAAAA CTTCAAAAGT CTGCCGTAGG CCCGGAGCAA 4020 

AACTTAGAAA CCCTATTGAA CTTGGCAACC TCGGTTTTTT ATAATAGAGA TCAGGAGGAG 4 080 

CAGGCGGAAC AGGACAAACG GGATTAAAAA AAAGGCCACC GCTTTAGTCA TGACCCTCAG 414 0 

GCAAGTGGAC TTTGGAGGCT CTGGAAAAGG GAAAAGCTGG GCAAATTGAA TGCCTAATAG 4 200 

GGCTTGCTTC CAGTGCGGTC TACAAGGACA CTTTAAAAAA GATTGTCCAA GTAGAAGTAA 4260 
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GCCGCCCCCT CGTCCATGCC CCTTATTTCA AGGGAATCAC TGGAAGGCCC ACTGCCCCAG 4 320 

GGGACAAAGG TCCTCTGAGT CAGAAGCCAC TAACCAGATG ATCCAGCAGC AGGACTGAGG 4 380 

GTGCCTGGGG CAAGCGCCAT CCCATGCCAT CACCCTCACA GAGCCCTGGG TATGCTTGAC 4440 

CATTGAGGGC CAGGAGGTTG TCTCCTGGAC ACTGGTGCGG TCTTCTTAGT CTTACTCTTC 4 500 

TGTCCCGGAC AACTGTCCTC CAGATCTGTC ACTATCTGAG GGGGTCCTAA GACGGGCAGT 4 560 

CACTAGATAC TTCTCCCAGC CACTAAGTTA TGACTGGGGA GCTTTATTCT TTTCACATGC 4 620 

TTTTCTAATT ATGCTTGAAA GCCCCACTAC CTTGTTAGGG AGAGACATTC TAGCAAAAGC 4 680 

AGGGGCCATT ATACACCTGA ACATAGGAGA AGGAACACCC GTTTGTTGTC CCCTGCTTGA 4 74 0 

GGAAGGAATT AATCCTGAAG TCTGGGCAAC AGAAGGACAA TATGGACGAG CAAAGAATGC 4800 

CCGTCCTGTT CAAGTTAAAC TAAAGGATTC CACCTCCTTT CCCTACCAAA GGCAGTACCC 4 8 60 

CCTCAGACCC AAGGCCCAAC AAGGACTCCA AAAGATTGTT AAGGACCTAA AAGCCCAAGG 4 920 

CCTAGTAAAA CCATGCAGTA ACCCCTGCAG .TACTCCAATT TTAGGAGTAC AGAAACCCAA 4 980 

CAGACAGTGG AGGTTAGTGC AAGATCTCAG GATTATCAAT GAGGCTGTTG TTCCTCTATA 504 0 

GCCAGCTGTA CCTAGCCCTT ATACTCTGCT TTCCCAAATA CCAGAGGAAG CAGAGTGGTT 5100 

TACAGTCCTG GACCTTCAGG ATGCCTTCTT CTGCATCCCT GTACATCCTG ACTCTCAATT 5160 

CTTGTTTGCC TTTGAAGATA CTTCAAACCC AACATCTCAA CTCACCTGGA CTATTTTACC . 5220 

CCAAGGGTTC AGGGATAGTC CCCATCTATT TGGCCAGGCA TTAGCCCAAG ACTTGAGCCA 5280 

ATCCTCATAC CTGGACACTT GTCCTTCGGT AGGTGGATGA TTTACTTTTG GCCGCCCATT 534 0 

CAGAAACCTT GTGCCATCAA GCCACCCAAG CGCTCTTCAA TTTCCTCGCT ACCTGTGGCT 5400 

ACATGGTTTC CAAACCAAAG GCTCAACTCT GCTCACAGCA GGTTACTTAG GGCTAAAATT 54 60 

ATCCAAAGGC ACCAGGGCCC TCAGTGAGGA ACACATCCAG CCTATACTGG CTTATCCTCA 552 0 

TCCCAAAACC CTAAAGCAAC TAAGGGGATT CCTTGGCGTA ATAGGTTTCT GCCGAAAATG 5580 

GATTCCCAGG TATGGCGAAA TAGCCAGGTC ATTAAATACA CTAATTAAGG AAACTCAGAA 564 0 

AGCCAATACC CATT TAGTAA GATGGACAAC TGAAGTAGAA GTGGCTTTCC AGGCCCTAAC 5700 

CCAAGCCCCA GTGTTAAGTT TGCCAACAGG GCAAGACTTT TCTTCATATG TCACAGAAAA - 57 60 



ATACCTGACT 



\ \AACAGGAATA, GCTCTAGGAG VTCCTTACACA GATCCGAGGG ATGAGCTTGC AACCTGTGGCf , 5820 

AAGGAAATTG ATGTAGTGGC AAAGGGTTGA CCTCATTGTT TACGGGTAGT ^ " 5B ?Q/ 

GGTGGCAGTA GCAG^CTTAG . TATCTGAAGC AGTTAAAATA ATACAGGGAA. GAGATCTTAC 0 
TGTGTGGACAxTCTCATGATG TGAATGGCAT ACTCACTGCT AAAGGAGACT. TGTGGCTGTC"^ 6000 

AGACAACTGT TTACTTAAAT GTCAGGCTCT ATTACTTGAA . GGGCCAGTGC TGCGACTGTG 6060 

CACTTGTGCA ACTCTTAACC CAGCCACATT TCTTCCAGAC AATGAAGAAA* AGATAAAACA 6120 

TAACTGTCAA CAAGTAATTT CTCAAACCTA TGCCACTCGA GGGGACCTTT TAGAGGTTCC .6180 

TTTGACTGAT CCCGACCTCA ACTTGTATAC TGATGGAAGT TCCTTTGTAG AAAAAGGACT 624 0 

J 

TCGAAAAGTG GGGTATGCAG TGGTCAGTGA TAATGGAATA CTTGAAAGTA ATCCCCTCAC 630 0 

TCCAGGAACT AGTGCTCAGC TAGCAGAACT AATAGCCCTC ACTTGGGCAC TAGAATTAGG 63 60 



41 



AGAAGAAAAA AGGGCAAATA TATATACAGA CTCTAAATAT GCTTACCTAG TCCTCCATGC 6420 

CCATGCAGCA ATATGGAAAG AAAGGGAATT CCTAACTTCT GAGAGAACAC CTATCAAACA 64 80 

TCAGGAAGCC ATTAGGAAAT TATTATTGGC TGTACAGAAA CCTAAAGAGG TGGCAGTCTT 654 0 

ACACTGCCGG GGTCATCAGA AAGGAAAGGA AAGGGAAATA GAAGAGAACT GCCAAGCAGA 6600 

TATTGAAGCC AAAAGAGCTG CAAGGCAGGA CCCTCCATTA GAAATGCTTA TAAAACAACC 6660 

CCTAGTATAG GGTAATCCCC TCCGGGAAAC CAAGCCCCAG TACTCAGCAG GAGAAACAGA 6720 

ATGGGGAACC TCACGAGGAC AGTTTTCTCC CCTCGGGACG GCTAGCCACT GAAGAAGGGA 6780 

AAATACTTTT GCCTGCAACT ATCCAATGGA AATTACTTAA AACCCTTCAT CAAACCTTTC 6840 

ACTTAGGCAT CGATAGCACC CATCAGATGG CCAAATCATT ATTTACTGGA CCAGGCCTTT 6900 

TCAAAACTAT CAAGCAGATA GTCAGGGCCT GTGAAGTGTG CCAGAGAAAT AATCCCCTGC 6960 

CTTATCGCCA AGCTCCTTCA GGAGAACAAA GAACAGGCCA TTACCCTGGA GAAGACTGGC 7020 

AACTGATTTT ACCCACAAGC CCAAACCTCA GGGATTTCAG TATCTACTAG TCTGGGTAGA 7080 

TACTTTCACG GGTTGGGCAG AGGCCTTCCC CTGTAGGACA GAAAAGGCCC AAGAGGTAAT 714 0 

AAAGGCACTA GTTCATGAAA TAATTCCCAG ATTCGGACTT CCCCGAGGCT TACAGAGTGA 7200 

CAATAGCC CT GCTTTCCAGG CCACAGTAAC CCAGGGAGTA TCCCAGGCGT TAGGTATACG 72 60 

ATATCACTTA CACTGCGCCT GAAGGCCACA GTCCTCAGGG AAGGTCGAGA AAATGAATGA 7320 

AACACTCAAA GGACATCTAA AAAAGCAAAC CCAGGAAACC CACCTCACAT GGCCTGCTCT 7380 

GTTGCCTATA GCCTTAAAAA GAATCTGCAA CTTTCCCCAA AAAGCAGGAC TTAGCCCATA 7 44 0 

CGAAATGCTG TATGGAAGGC CCTTCATAAC CAATGACCTT GTGCTTGACC CAAGACAGCC 7 500 

AACTTAGTTG CAGACATCAC CTCCTTAGCC AAATATCAAC AAGTTCTTAA AACATTACAA 7560 

GGAACCTATC CCTGAGAAGA GGGAAAAGAA CTATTCCACC CTTGTGACAT GGTATTAGTC 7 620 

AAGTCCCTTC CCTCTAATTC CCCATCCCTA GATACATCCT GGGAAGGACC CTACCCAGTC 7 680 

ATTTTATCTA CCCCAACTGC GGTTAAAGTG GCTGGAGTGG AGTCTTGGAT ACATCACACT 7 74 0 

TGAGTCAAAT CCTGGATACT GCCAAAGGAA CCTGAAAATC CAGGAGACAA CGCTAGCTAT 7 800 

TCCTGTGAAC CTCTAGAGGA TTTGCGCCTG CTCTTCAAAC AACAACCAGG AGGAAAGTAA 7 8 60 

CTAAAATCAT AAATCCCCAT GGCCCTCCCT TATCATATTT TTCTCTTTAC TGTTCTTTTA 7 920 
CCCTCTTTCA CTCTCACTGC ACCCCCTCCA TGCCGCTGTA TGACCAGTAG CTCCCCTTAC "7980 

CAAGAGTTTC TATGGAGAAT GCAGCGTCCC GGAAATATTG ATGCCCCATC GTATAGGAGT 804 0 

CTTTCTAAGG GAACCCCCAC CTTCACTGCC CACACCCATA TGCCCCGCAA CTGCTATCAC 8100 

TCTGCCACTC TTTGCATGCA TGCAAATACT CAT TATTGGA CAGGAAAAAT GATTAATCCT 8160 

AGTTGTCCTG GAGGACTTGG AGTCACTGTC TGTTGGACTT ACTTCACCCA AACTGGTATG 8220 

TCTGATGGGG GTGGAGTTCA AGATCAGGCA AGAGAAAAAC ATGTAAAAGA AGTAATCTCC 8280 
CAACTCACCC GGG TACATGG CACCTCTAGC CCCTACAAAG GACTAGATCT CT CAAAACTA 



8340 



CATGAAACCC TCCGTACCCA TACTCGCCTG GTAAGCCTAT TTAATACCAC CCTCACTGGG 84 00 
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CTCCATGAGG TCTCGGCCCA AAACCCTACT AACTGTTGGA TATGCCTCCC CCTGAACTTC 84 60 

AGGCCATATG TTTCAATCCC TGTACCTGAA CAATGGAACA ACTTCAGCAC AGAAATAAAC 8520 
ACCACTTCCG TTTTAGTAGG ACCTCTTGTT TCCAATCTGG AAATAACCCA TACCTCAAAC 8580 
CTCACCTGTG T AAAAT T TAG CAATACTACA TACACAACCA ACTCCCAATG CATCAGGTGG 8 64 0 

GTAACTCCTC CCACACAAAT AGTCTGCCTA CCCTCAGGAA TATTTTTTGT CTGTGGTACC 87 00 

TCAGCCTATC GTTGTTTGAA TGGCTCTTCA GAATCTATGT GCTTCCTCTC ATTCTTAGTG 87 60 

CCCCCTATGA CCATCTACAC TGAACAAGAT TTATACAGTT ATGTCATATC TAAGCCCCGC 8820 
AACAAAAGAG TACCCATTCT TCCTTTTGTT ATAGGAGCAG GAGTGCTAGG TGCACTAGGT 8880 

ACTGGCATTG GCGGTATCAC AACCTCTACT CAGTTCTACT ACAAACTATC TCAAGAACTA v 8 94 0 

AATGGGGACA TGGAACGGGT CGCCGACTCC CTGGTCACCT TGCAAGATCA ACTTAACTCC 9000* 

CTAGCAGCAG TAGTCCTTCA AAATCGAAGA GCTTTAGACT TGCTAACCGC ■ TGAAAGAGGG 90 60 

GGAACCTGTT TATTTTTAGG GGAAGAATGC .TGTTATTATG TTAATCAATC CGGAATCGTC 9120 

ACTGAGAAAG TTAAAGAAAT TCGAGATCGA ATACAACGTA GAGCAGAGGA GCTTCGAAAC 9180 

ACTGGACCCT GGGGCCTCCT * CAGCCAATGG ATGCCCTGGA TTCTCCCCTT CTTAGGACCT 924 0 

CTAGCAGCTA TAATATTGCT ACTCCTCTTT GGACCCTGTA TCTTTAACCT CCTTGTTAAC 9300 

TTTGTCTCTT CCAGAATCGA AGCTGTAAAA CTACAAATGG AGCCCAAGAT GCAGTCCAAG . 9360 

ACTAAGATCT ACCGCAGACC CCTGGAGCGG CCTGCTAGCC CACGATCTGA TGTTAATGAC 94 2 0 

ATCAAAGGCA CCCCTCCTGA GGAAATCTCA GCTGCACAAC CTCTACTACG CCCCAATTCA 94 80 

GCAGGAAGCA GTTAGAGCGG TCTCGGCCAA CCTCCCCAAC AGCACTTAGG TTTTCCTGTT 954 0 

GAGATGGGGG ACTGAGAGAC AGGACTAGCT ' GGATTTCCTA GGCTGACTAA GAATCCCTAA 9600 

GCCTAGCTGG GAAGGTGACC ACATCCACCT TTAAACACGG GGCTTGCAAC TTAGCT.CACA 9660 

CCTGACCAAT CAGAGAGCTC ACTAAAATGC TAATTAGGCA 'AAGACAGGAG ' GTAAAGAAAT 97 2 0 

AGCCAATCAT CTATTGCCTG AG AG C AC AG C AGGAGGGACA ATGATCGGGA TATAAACCCA 97 8 0 

AGTtT.TCGAG CCGGCAACGG CAACCCCCTT TGGGTCCCCT CCCTTTGTAT GGGAGCTCTG 98 4 0 

TTTTCATGCT ATTTCACTCT ATTAAATCTT GCAACTGCAC TCTTCTGGTC , CATGTTTCTT 9900 

ACGGCTTGAG/-CTGAGCTTTC GCTCGCCATC CACCACTGCT GTTTGCCGCC ACCGCAGACC* / ^960 ; 
CGCCGCTGAC TCCCATCCCT CTGGATCATG CAGGGTGTCC GCTGTGCTCC TGATCCAGCG 
AGGCACCCAT TGCCGCTCCC AATCGGGCTA AAGGCTTGCC ATTGTTCCTG. 'GATGGCTAAG 



TGCCTGGGT.TvCATCCTAATT. GAGCTGAACA CTAGTCACTG . GGTTCCATGG. TTCTCTTCTG" 
TGACCCACAG CTTCTAATAG AGCTATAACA GTCACCGCAT GGCCCAAGGT TCCAT.TCCTT 
GAATCCATAA GGCCAAGAA'C - CCCAGGTCAG AGAACACGAG GCTTGCCAGC^ATCTTGGGAG 
CTCTGTGAGC AAGGACCCCC AAGTAACACA ACCATGAGGG TGCAAATGCA TGGGCCACTA 
ATGGTAGAGC AAGAAAACAG AAGGGCCCTG GTTCCTCGAA GGCATCAGTG AGCTGAAATG 
CCTGCCCTGG ATGTCCTATT CCTAGGTGTT TTTCTGCCTG AAGCAGATTA AACCCTTTGT 
TCACTTCTCC AAGTAGGGCT TCTATTACAG CCCAAATCAA TCCCCACCCC AGATGACAT 



10020/ 
,1008 0 
10140 



10200 
10260 
10320 
10380 
10440 
10499 
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(2) INFORMATIONS POUR LA SEQ ID NO: 4: HE2 

(i) CARACTERISTIQUES DE LA SEQUENCE ■ 

(A) LONGUEUR: 2784 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(Xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 4: 

ATCTCAGGGATTTCAGTATCTA^ 

A^GAAAAGGCCCAAGAGGTAATAAACGT^ 
GTGAC^TGGCCCTGCTTT^ 

ACACTGCGCCTC^AGGCCACAGTCCT^GGA^^ 

AAGCTAATCCAGGAAACCCACCTCGCATGGCCTGCTCTGTTGCCTATAGCCTTA^ 
CCCAAAAAGCAGCACTTAGTCCATACAAAATGCTGTAT^ 
CCGAGAGACAGCCAACTTAGTTGCAGA^ 

ggagcctgtccccaagaagagggaaaggaactattccaccctggtgacatggtattagS 



G 



CT 



CTAATTCCCCATCCCTAGATACATCCTGGGAAGGAAACTACCCAGCCATTTTATCTACCCTAACGGCAGTTAA 

CCATGAGACAATGCTAGCTATTCCTGTGAACCTCTAGAGGATCTGCGCCTGCTCTTCAAATG^ 
GAAAGTAACTAAAATCGTAAATCCCCTGGCCCTCCCTTATCATATTTTTCTCTTTAC^^ 

ttcactctcactgcaccccgtccatgccactgcaccccgtccatgccccgtccatgccagtagSc^^ 

CAAGAGTTTCTATGGAGAATGCAGCGTC^ 

CCCCCACCTTCACTGCCCACACCCATATGCCCCACAACTGCTATAACTCTGCCACTCTT^ 

TACTCATTATTGGACAGGAAAAACGATTAATCCCAGTTGTCCTGGAGGACTTGGAG^^^^ 

CCAGTATGTCTGATGGGGGTGGAGTTCAAGAT^^ 

gacctgggtacatagcacccctggcccctacaaaggactagatctctcaaaactacatcSaccSc^ 

ACTGTTGGATGTGCCTCCCCCTGCACTTTAGGCCATACATTTCAATCCCTATACCTGAACAA^ 

CAGCACAGAAATAAACACCACTTCTGTTTTAGTAGGTCCTCTTTCCAATCTGGAAATAA 

CTCACCTGTGTAAAATTTAGCAATACTATAGACACAGCCAACTCCCAATGC 

cacc^tagtctgcctaccctcaggaatattttttg^ 

™ GAATCTGTGTGCTTCCTCTCATTCTTA ^^ 
^ G I CATACCTAAGCCCCGC ^ CAAAAGAGT ^ 

gagtagctactggcattggcggtatcacaacctctactcagttctactacaaactgtctcaa^ 
tgacatggaatgggtcgctgataccctggtcaccttgcaagatcaacttaactccctagcag^ 
caaaatcgaagagctttagacttgctaaccgcggaaagcgggggaacctttttattt?^^^ 

GTTGTTATGTTAATCAATCCGGAATCATC^CCGAGAAAGTTAAAGAAATTCAAGGTC^ 
AAAGGAGCTGCAAAACACTGGACCCTGGGGCCTCCTCAGCCAATGGATGCCCTGG^^^ 

cctctagcagctataatattgttactcctctttc^^ 

CCAGAATCGAAGCAGTAAAACTAC^TCGTTCTTCAAATGGAGCCCCAGATG^^ 
C S^f CCCCTGGACCGGCCTGCTAGCCCATGCTCT ^ 

ATCTCAACTGCACAACCTCTACTACGCCCCAATTCAGCAGGAAGCAGTTAGAGTGGTTG^ 
CAACAGCT^GTTGGGTTTTCCTGTTGAGAGGGGGGACTGAGAGACAGGAATAACTAGATTTCCTAGA^CA^CTA 

agaatccctaagactagctgggaaggtgaccgcttccacctttaaacaccgggcttgcaaS^^^ 

(2) informations pour la seq id no: 5: he3 
(i) caracteristiques de la sequence * 

(A) LONGUEUR: 1799 paires de bases 
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(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 



(ii) TYPE DE MOLECULE: ADN (genomique) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 5: 

GGGATTCTTAGTCGGCCTAGGAAATCCAGCTAATCCTGTCTCTCAGTCCCCCCACTCAACAGGAAAACCCAAG 

TGCTGTTGGGGAGGTTGGCTGACGACCAGTCTAACTGCTTCCTGCGGAATTGGGGCATAGTAGGGGTTGTGCA 

GTTGAGATTTGCTCGGGAGGGGTGCGTTCGATATCATTACAATTGGAGCATGGGCTAGTAGGCCGGTCCAGGG 

GTCCACGGTAGATCTTAGTCATGGACTTCATCTGGGGTTCCATTTGAAGAACGATTTGTAGCTTTACAACTTT 

GATTCTGGAAGAGACAAACTTAACAAGGAGGTTAAAGATACAGGGTCCAAAGAGGAGTATGAATATTAGAGCT 

GCTAGAGATCCTAAGAAGGGGAGAATCCAGGGCATCCATTGGCTGAGGAGGCCCCAGGGTCTGGTGTTTTTGA 

AGGTCCTCTGTTCTACGTTGTATTCAATCTCGAATTTCTTCAACTTTCTCTGTGAGAATTCAGGATTGATTAA 

CATAATAACAAGATTCTTCCGCTAAAATAAGATAATAACAACATTCTTCCCCTAAAAATAAACAGCTTCCCCC 

TCTTTCAGAGGTTAGCAAGTCTAAAGCTCTTCAATTTTGAAGGACTACTGATGCTAGGJ\AGTTAAGTTGATCT 

TGCAAGGTGACCAGGGAGTCGGCAACCCATTCCATGTCACCATTGAGTTCTTGAGATAGTTTGTAGTAGAACT 

GAGTAGAGGTTGTGGTACCGCCAATGCCAGAACCTAGTCCACCTAGCACTCCTGCTCCGATAACAAAAGGAAG 

AATGAGTACTCTTTTGTTGTGGGGCTTAGGTACAACATAATTGTATAAATCTTGTTCAGTGTAAATGGTCATG 

GGGGCACTAAGAATGAGAGGAAGCACATAGATTCTGAAGAGCCATTCAAACAACGATAGGCTAAGGTACCACA 

GACAAAAAATATTCCTGAGGGTAGGCAGACTATTCGTGTGGGAGGAGTTACCCACCTGATGCATTGGGAGTTG 

GTTGTGTCTACAGTATTGCTAAATTTTACACAGGTGAGGTTTGAGGTATGGGTTATTTCCAGATTGGAAACAA 

GAGGTCCTACTAAAACGGAAGTGGTQTTTATTTCTGTGCTGTAGTTGTTCCATTGTTGAGGTACAGGGATTGA 

AATGCATGGCCTGAAATACAGGGGGAGGCACAACCAACAGTTAGTAGGGTTTTGGACCGAGACCTCATGGAGC 

CCAGTGAGGGTGGTATTAAATAGGCTTACCAGGCAAGTATGGGTATGGAGGGTTTCATGTAGTTTTAAGAGAT 

CTAGTCCTTTGTAGGGGCTAGGGGTGCTATGTACCCGGGTCAGTTGGGAGGTTACTTCCTTTACATGTTTTTC 

TCTTGCCTGATCTTGAACTCCACCCCCCTCAGACATACCAGTATGGGTGAAGTAAGTCCGACAGACAGTGGCT 

CCAAGTCTTCCAGGAGAACTAGGATTAATCATTTTCCCTGTCCAATAATGAGTATTTGCATGCATGCAAAGAG 

TGGCAGAGTTATAGCAGTTGTGGGGCATATGGGTGTGGGCAGTGAAGGTGGAGTTTCCTTTAGGTAAACTCCT 

ATTTGATGGGGCATCAATATTTCTGGGAAGCCGCATTCTTCATAGAAAGTCTTGGTAAGGGGAGCTGCTGGTT 

GTACAGCAGCATGGAGGGGGTGCAGTGAGAGTGAAAGGGGGTAAGAGAACAGTAAAGAGAAAAATATGATAAG 

GGAGGGCCATGGGGATTTACGATTTTAGTTACTTTCCTCACGGTTGT 

(2) INFORMATIONS POUR LA SEQ ID NO: 6 : HG3 

(i) . CARACTERISTIQUES DE LA SEQUENCE: .'/ / 

(A) LONGUEUR: 1489 paires de bases > / >? 

<■ : (B) TYPE: nucleotide / // 

(C) NOMBRE DE BRINS: simple \ / - 
, (D) CONFIGURATION: lineaire 




\(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 6: / '\ X V ; 

TGGTGCTT.GC CCCGGGCACT' CTCAGTCCTG CTGCTGGATC ATCTGGTTAG TGGCTTCTGA 
CTCAGAGGAC ^CTACGTCCCC TGGGGCAGTG GGCGTTACAG TGATTCCCTT GACACGAGGT 



(ii^TYPE DE MOLECULE: ADN (genomique) 




60 



120 



GCATGGACGA GGGGGCGGCT^TATTTCTATT TGGACAATCT TTTTTAAAGT ■ GTCCTTGTAG 



180 



ACCGCACTGG AAGCAAACCC TATTAGGCAT " TTGATTTGCC TAGCTTTTCC CTTTTCCAGT 



240 



GCCTCCAAAG TCCGCTTGCC TGAGGGCCAT GACTAAAGCG GTGGCCTTTT TTTTATCCCA 



300 



TTTGTCCCAT TCTGCCTGCT CATCCTGATC TCTATTATAA AAAACTGAGG TTGCCAAGTT 



360 



CAATAGGGTT TCTAAGTTTT GTTCCGGGCC TAAGGCAGAC TTTTGAAGTT TTTTCCTAAT 



5» 
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GTCTGTAGCT GACTGAGTGA TAAACTTATC CTTTAAGATT AGTTGGCCTT CAGTAGAGTC 4 80 

AGTTGACAGA GAGAGGTATG CTTCCTCAAT GCCTCCGTTA GTCACTCCAG AAAGGCGGTA 54 0 

GGATTTTCTT CCTTTCCCTG TGTTATAGTG GACATCATTG AATAACTCAC AGGCTTCTTT 600 

CTAGTTTTCC TTAGTCCTTC TAGCACGCAA GTTAGCAAAT GTCTGCGGCA CCAATCTCCA 660 

TGTTCTGATT CTGTGTCCCA GTGAGGGTCT ACACTGGGAA CTGCCTGCTG GCCTGTGGGG 720 

AATCGTTCTC TTTCCTCTGT TGTCGACCTA TCATTGACCT GACTGAGATA CCAGAGATCG 7 80 

CCAAACTCTC AGGCTGCAGT TACGGCGACA CTTCTGTCAT TTGGGGTTAG TGTCTGATTT 84 0 

AGCAGTAACA TTATATCTCT CCATATCAGA TCAAAGGATT GTCCTAAACC TTGTAAAACA 900 

TCAATATAGC CATTAGGGTT ATCTGAGAAT TTACCTAGGT CTATTTTAAT TTAAAGTCTG 960 

GGAGAGAAAA AGGCACATGC ACTCTGGCTG GGCCGAATTC TCTTCCTCCC ACTGCGTCTG 1020 

AGAGAGAAAA AGGTACGTGC ACTCTGGCTG GGCCGAATTC TCCTCCCACC GCTTGGAGGG 1080 

GGCATAATCG GGGAATATTG GCATTCTTTG GTTAGTTGTT TACCCCTTTG TCTATCTCCT 114 0 

TTTGGACCGT TTGGGTTGAA GGGGGGTCCT TATTATTTGG GGAAGGAGTC TGGGGGATGC 1200 

TGGGGTAGGG AGGTAGACTC TGAGGGCTTC CTGTAGGGCA TAAATCACAC TTTTTACATA 1260 

ATTGCGAGTT GTCTCTTAAT GAAAAGAAAG TTTGTACGTA TGACACTTCA CACCATTTGC 1320 

CTTCTTTTCT ACAAAAGAGG TCTAGCTGTA AGATGGTGTT ATAATTTATG CTTCCCTCAG 1380 

GATGCCAGGT TTCTCCCCCT TAAAGAGTAT ATCGTTGCCA GGCGGTACTG CAGAAGAATA 14 4 0 

TGTCTTTTTT TTCTTAGCAT CTGAGAGTCA AATTGGTCCC AATTCTCCA 14 8 9 
(2) INFORMATIONS POUR LA SEQ ID NO: 7: HE 4 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 1216 paires de bases 

(B) TYPE: nucleotide 

(C) N OMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 7: 

TAAAGATACA GGGATTGAAA TGTATGGCCT GAAGTGCAGG GTCATATAGG TGTGGGTGGT 60 

GAAAATGGGG TTTCCTTTAG AAAAACTCCT ATACGATGGG TCATCAATAT TTCCAGGAAG 120 

CCGCATTCTC CATAGAAGCT CTTGGTAATG GGAGCTACTG GTAGTACAGT GGCATGGAGG 180 

GGGTGCAGTG AGAGTGAAAG AGGGTAAAAG AACAGTAAAG AGAAAAATAT GATAAGGGAG 24 0 

GGGTTCAGTG AGAGTGAAAG GGGGTAAGAG AACAGTAAAG AAAAAAATAT GACAAGGAGG 300 

GCCATGAGGA TCTACGATTC TAGTTACTTT CCTCACGGTT GTCGCTTGAA GAGCAGGTGC 360 

AGATCCTCTA GAGGTTCACA GGAATAGCTA GCGTTGTCTC CTGGATTTTC GGGTTCCTTT 420 

GGCAGTATAC AGAGTTTGAC TCGAGTGTGA TGTATTCAAG ACTCCACTCC AGCCACTTTA 4 80 

ACCGCAGTTG GGGTAGATAA AATGACTGGG TAGGGTCCTT. CCCAGGATGT ATCTAAGGAT 540 

GGGGACTTAG AAGGAAGGGA CTTGACTAAT ACCATGTCAC CAGGGTGCAA TAATTACTTT 600 



* 
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CCCTCTTCTC GGGAACAGGT TCCCTGTAAT GTTTTAAGAA CTTGTTGATA TTTGGCCAAG 660 

GAGGTGATGT CTGCAACTAA GCTGGCCATC TCTCGGTCAA GCACAAGGTC CTTGGTTAGG 720 

AAGGGCCATC CAT AC AG CAT TTTGTATGGG CTAAGTCCTG CTTTTTGGGG AGAGTTTTGG 7 80 

ATTCTTAGTA AGGCTGTAGG CAACAGAGCA GGCCATGCAA GGTGGGTTTC TTGGGTTAGC 840 

TTTTTTAAAT GTCGTTTGAG TGCTTCATTC ATTTTCTTGA CTTTTCCTGA GGATTGTGGC 900 

CTCCACGCGC AGTGTAAGTG ATATTGTATG CCTAATGCCT GGGATACTCC CTGGGTTACT 960 

GTAGCCTTGA AAACGGGGCC ATTGTCACTC TGTAAGCCTC GGGGAAGTCC GAATCTGGGA 1020 
ATTATTTCAT GAATTAGTGC CTTTATTACA TCTTGGTCCT TTTCTGTCCT ACAAAGGAAG 1 , 1080 

GCCTCTGCCC AACCAGTGAA AATATCTACC CAGACTAGTA GATACTGAAA TCCCTGAGAT 1140 

TTGGGCATGT GGGTAAAATC TAGTTGCCAG TCTTCTCCTG AGTAATGGCC TGTTCTTTGT , 1200 

TCTCCTGAAG GAGCTT 1216 
(2) INFORMATIONS POUR LA SEQ ID NO: 8: HE5 

(i) CARACTERISTIQUES DE LA" SEQUENCE: 

(A) LONGUEUR: 97 6 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE : SEQ ID NO: 8: 

AGTGATAATG GAATACTTGA AAGTAATCCC CTCACTCCAG GAACTAGTGC TGAGCTGGCC • 60 

AAACTAATAG CCCTCACTCG GGCACTAGAA TTAGGAGAAG AGAAAAGGGT AAATATATAT 120 

ACAGACTATA AGTATGCTTA CCTAGTCCTT CATGCCCATG CAGCAATATG GAGAGAAAGG 180 

GAATTCCTAA CTTCCAAAGG AACACCTATC- AAACATCAGG AAGCCATTAG GATATTATTA 2 40 

TTGGTGGTAC AGAAACCTAA- AGAGGTGGCA GTCCTACACT GCTGGGGTCA TCAGAAAAAA 300 

AAGGAAAGGG AAATAGAAGG GAACTACCAA GCAGATATTG AAGCCAAAAG AGCCGCAAGG 3 60 

CAGGACCCTC CATT^GAAAT v GCTT ATAGAA GGACCCCTAG TGTGGGGTAA CCCCCTCCAG - 42 0 

. GAAAGCAATC CCCAGTACTC AGCAGGAGAA ATAAAATGGA GAACCTCACG . AGGACATACT , N 4 8 0 

TTCCTCCCCT CAGGATGGCT AGCCACCAAA GAAGGAAAAA TGCTTTTGCC TGCAGCTAAC .. 54 °/ 

CAATGGAAAT TACTTAAAAC CCTTCACCAA ACCTTTCACT TAGGATTGAT AGCACCCATC ^600 

AGATGGCCAAv ATTATTATTT ; ACTGGATCAG GCCTTTTCAA AACTATCAAG : - -CAGGTAGTCA 660 

GGGCCTGTAA AGTGTGCCAA AGAAATAATC TCCTGCACTG CAAGCCAT AC ATTTCAATCC 720 

CTGTATCTTT AACCTCCTTG TTAAGTTTGT CTCTTCCAGA ATCAAAGCTG ..TAAAACTACA 7 80 

AATGGTTCTT CAAATGGAGT CTCAGATGCA ' GTCCATGACT 1 AAGATATACC GCAGCCCCCT 84 0 

GGAGGGGGCC TGCTAGCCCA TGCTCCAATG TTAATGACAT CGAAGGCACC CCTCCCGGGG 900 

AAATCTCAAC TGCACAACCC CTACTATGTC CCAATTCAGC AGGAAGCAGT TAAAGCGGTC 960 
ATCGGCCAAC CTCCCC 



976 
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(2) INFORMATIONS POUR LA SEQ ID NO: 9: HE 6 

(i) CARACTERI STIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 942 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 9: 
AGAGGAGAAC AG C AG CAT AA GCGGCTGGCA GAGGTAGGGA AAGACCAGCA AGAAGAAAAG 
AGAGAAAGAG AAAGAGAAAG TCAGAGAAAG AGACAGAGAG AGGAAGAGAC AAAGAGACAG 
AAAGTCAAAG AGGTAGTAGT CAGAAACAGA GACAAAAAAA AGGAGTCAGA AAGAGGGACA 
GACACAGAAA GTCAAAAAAA AAGTTAAGAA GAAAGGAAAA GACAAAGAAG AAGTCGAAGA 
GGAGAAAGAG AGAGATAGAA GTAGTAAAGA AAAAAACAGC ATATCCCATT CCTTTAAAGC 
CAGGGTAAAT TTCTATCTAC CCAGCCAAGG CATATTCTAC TTATGTGGAT CTTCAACCCA 
TATCTGCCTC TCAGACAGTT TGCAAGAAAT AATGAAATCT ATCCTTACTT TACAATCCCA 
AATAGACTCT TTGGCAGCAG TGACTCTCCA AAACTGCAGA GGCCTAGACC TCCTCACTGC 
TGAAAAAGGA GGACACTACA CCTTCTTAGG GGAAGAATGT TGTTTTTACA CTAACCAGTC 
GGGGATAGTA TGAGATGCTG CCCGGAGTTT ACAGGAAAAG GCTTCTGAAA TCAGACAACG 
CCTTTCAAAT TCTTATACCA ACTTCTGGAG TTAGGCAACA TGGCTTCTCC CCTTTCTAGG 
TCCTGTGGCA GCCATCTTGC TGTTACTCGC CTTTGGGCCC TGTATTTTTA ACCTTCTTGT 
CAAATTTGTT TCCTCTAGAA TCGAGGCCAT CAAGCTACAG ATGGTCTTAC AAATGGAACC 
CCAAAAGAGT TCAACTAACA ACTTCTACCG AGGACCCCTG GATCAACCCA CTGGCACTTC 
CCCTGGCCTA GAGAGTTCCC CTCTGAAGGA CACCGCAACT GCAGGGCCCT TCTTTGCCCC 
ATCCAGCAGG AGTAGCTAGA GTGGTCATCG GCCAAATTGC CA 
(2) INFORMATIONS POUR LA SEQ ID NO: 10: HG6 

(i) CARACTERI STIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 1375 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 
<D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 10: 
CCCCAATATT CTCTTTCTGA TGGGGAAAAA TGGCCACCTG AGGGAAGCAC AAATTACAAT 
ACTATCCTGC AGCTTGATCT TTTCTGTAAG AGGGAAGGCA AATGGAGTGA AATACCTTAT 
GTCCAAGCTT TCTTTTCATT GAGGGAGAAT ACACAACTAT GCAAAGCTTG CAATTTACAT 
CCCACAGGAG GACCCCTCAG CTTACCCCCA TATCCTAGCC TCCCTATAGC TTCCCTTCCT 
ATTGATGATA CTCCTCCTCT AATCTCCCCT GCCCAGAAGG AAATAAGCAA AGAAATCTCC 
AAAGGTCCAC AAAAACCCCC GGGCTATCGG TTATGTCCCC TTCAAGCTGT AGGGGGAGGG 
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GAATTTGGCC CAACCCGGGT GCATGTCCCC TTCTCCCTCT CTGATTTAAA GCAGATCAGG 42 0 

CAGACCTGGG GAAGTTTTCA GATGATCCTG ATAGGTACAT AGATGTCCTA CAGGGTCTAG 4 80 

GGCAAACCTT- TGACCTCACT TGGAGAGACG TCATGCTACT GTTAGATCAA ACCCTGGCCT 54 0 

TTAATGAAAA GAATGCGGCT TTAGCTGCAG CCTGAGAGTT TGGAGATACC TGGTATCCTA 600 

GTCAAGTAAA TGAAAGAATG ACAGCCGAAG AAAGGGACAA CTTCCCTACT GGTCAGCAAG 660 

CCATCCCCAG TATGGATCCC CACTGGGACT TTGACTCAGA TCATGGGGAC TGGAGTCGTA 720 

AACATCTGTT GATCTGTGTT CTGGAAGGAC TAAGGAGAAT TGGGAAAAAG CCCATGAATT 7 80 

ATTCAATGAT AT C C AC CAT A ACCCAGGGAA AGGAAGAAAA TCCTTCTGCC TTCCTCGAGC V 84 0 

GGCTACAAGA GGCCTTAAGA AAATATACTC CCCTGTCACC CGAATCACTC GAGGGTCAAT 900 

TGATTCTAAA AGATAAGTTT ATTACCCAAT CAGCCACAGA TATCAGGAGA AAGCTCCAAA 9 60 

AGCAAGCCCT GAGCCCTGAA CAAAATCTAG AG AC AT TAT T AAACCTGGCA ACCTTGGTGT 1020 

TCTATAATAG GGACCAAGAG GAACAGGCCC AAAAGGAAAA GCGAGATCAG AGAAAGGCCG 1080 

CAGCCTTAGT CATGGCCCTC AGACAAACAA ACCTTGGTGG TTCAGAGAGG TCAGAAAATG 114 0 

GAGCAGGCCA ATCACCTGGT ACGGCTTGTT ATCAGTGCGG TTTACTAGGA C ACT T T AAAA 1200 

AAGATTGTCC AATAAGAAAC AAGCTGCCCC CTCATCCGTG TCCACTATGC CGAGGCAATC 12 60 

ACTGGAAGGT GCACTGCCCC AG AGG AT G AA GGTTCCCTGG GTTAGAAGCC CCCAACCAGA 1320 

TGATCCAACA ACAGGACTGA GGGTGCCCGG GGCAAGCACC AGCTCATGTC ATCAC - 1375 
(2) INFORMATIONS POUR LA SEQ ID NO: 11: HE7 

(i) CARACTERISTIQUES DE LA SEQUENCE : 

(A) LONGUEUR: 944 paires de bases 

(B) TYPE: nucleotide 

(C) N OMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique)- 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 11: / / ,/ . 

ACCTAGGAGG AACTGTGTTC AGGACAGGAC TATAGATGCT TCCTCCCAGG CGATTAAGGG 60 

: VAAAAAGACAC AATGGGTATT CAGTAAGTGA TAAGGAAACT CTTGTAGAAG CAGAGTTAGG' - 'l2 0 

AAAATTGCCT AATAATTGGT CTGCTCAAAT GTGCGAGCTG TTTGCACTCA GCCAAACCTT ' " 180, 

XX /■■' ' * \\ \x a // 

AAAAGTATTA CAGAATCAGG / AAGAAGCCAT CTATACCAAT TCTAAGTTAA T ATGGACTG A ,^24 0 

ACGAGAACTTVATTAATAGCA AAGAATAATT GAAATCCCAA ACTTACAAGG TTTTCAACAjX 300 

AAGCACAGTT TGCTAAAAGT TAACTGTGTA ACATGTATTA TCCTACTACC : ACMACTCTC 3 60 

AAATGATTTC TCAGACAGTT TGCAAGAAAC. AATG AAACC T - AT C CT T ACT cT T AC AAT C C C A 

AATAGACTCT TTGGCAGCAG TGACTCTCCA AAACC AC CAA GGCCTAGACC TCCTCACTGC 

TGAGAAAGGA GGACTCTGCA CCTTCTTAGG GGAAGATTGT TGTTTTTACA CTAACCAGTC 

AGGGATAGTG TGAGATGCCA CCCAGCGTTT ACAGGAAAAG GCTTCTGAAA TCAGACACAA 600 

TGCTTTTCAA ACCTTATAGC AACCTCTGGA GTTCGGCGAC TGGCTTTTCC CCTTTCTAGG 660 



y 



420 
480 
540 
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TCCTGTGACA GCCATCTTGC TATTACTCGC CTTCGGGCCC TGTATTTTTA ACCTCCTCGT 7 20 

CAAATTTGTT TCCTCTAGGA TCGAGGCCAT CAAGCTACAG ATGGTCTTAC AAATGGAACC 7 80 

CCAAATGAGC TCGACTAACA ACTTCTACTG AGGACCCCTG GACCGACCCA CTGGCCCTTT 840 

AACTGGCTTA AAGAGTTTCC CTCTGGAGGA CACTACAACT GCAGGGCCCC TTCTTTGCCC 900 

CATCCACAGG AAGTTAGCTA GAGCAGTCAT CACCCAATTC CCAA 94 4 
(2) INFORMATIONS POUR LA SEQ ID NO: 12: HE 8 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 963 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 12: 



TACAGGAACC 


CCATAATACG 


TCCTTGGCAA 


ATTCTATTCA 


GCTCCAACTG 


CTAGGAGTGG 


60 


CCCATTTGTC 


CTGAACCCTC 


AAATCATGGG 


AATGAGAAAT 


GAATTTAGAC 


TGACCACAGC 


120 


CCTTATGAGT 


TTTCAGCTAC 


AGGGGTGTAT 


AGAACCCTGA 


TAAGGAGTTT 


TCTTTGTGTG 


180 


TGGAAGATCC 


TTCTATATTT 


GCCTCCCCAC 


CAACTGGACA 


GGAACTTGTA 


CTTTAGCCTA 


240 


CATAGTACCT 


CCTGTGACTT 


ATCCTTTTCA 


GAAGAGGCAG 


TAGCTGTGCC 


CATTCATGCT 


300 


AAGCTTCAGC 


CGAGAGCAAT 


CTCACTACTT 


CCTCTATTGG 


CTGGTTTAGG 


ATT TACT ACC 


360 


ACCTAGGAAG 


TGGACTCACA 


GCCTAGATGA 


AATCTCTCTC 


CAACTTACTC 


AAATCCAGGA 


420 


CCAAATAGAC 


TCATTAGCAG 


CTGTGGTTCT 


CCGAACCAGT 


GAGCACTAGA 


TCTCCAATCT 


480 


CCTCACTGCC 


GAAAGGGGAG 


GAACATGCCT 


TTTTCTGAAC 


AAGGAATGTT 


GTTTTTATGT 


540 


CAATAAATCA 


GGCATAGTGA 


GAGATGGAAT 


TAAATGACTT 


CAGGATAGAG 


CTAGCAGACT 


600 


ACATGGTGGG 


A C AAC C G AAA 


CTACCTCAGG 


GTTCTCACAG 


CCTGTTCTCC 


ACTGGCTTCT 


660 


TCCATTTTTA 


GGTCCCTTCC 


T TAT GAT TAT 


TCTAGGAGTA 


ACCTTTGGCC 


CATGTCTTTT 


720 


CAGTTCCTTC 


ATCCTTTCGT 


TTCTTCCTGA 


AT AG AAT CAA 


TGAAACTAGA 


AATGTTACTG 


780 


C AG AT G G AAC 


CTCAGATGAC 


TTCAACCAGC 


ACCTATTATC 


AAGGACCCCT 


AAACCAGCCT 


840 


GCCGGCCCAT 


ACCCGGACGT 


TGACACCCAA 


ACCACCTCTC 


ACGAGGAAAC 


CTCAGCTACA 


900 


GAACCCCTTC 


TATGCCCCTA 


TTCAGCAGGA 


AG C AAT T AGA 


GTGGTCATCC 


TCCCACACCC 


960 


CAA 












963 



(2) INFORMATIONS POUR LA SEQ ID NO: 13: HG8 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 1362 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 
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(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 13: 

CCACAATATC CTCTTCCAGG AGGAGAACGA TGGCCACCTG AGGGAAGTAT ACACTATAAT 60 

ACCATCCTGC AACTAGATCT GTTTTGTAAA CAAGAAGGCA AGTGGATTTA GGTACCATAT 12 0 

GTTCAGACCT TTTTCTCATT AAGGG AT GAT AACCCACGAT TGTGTAAGAC ATGTAACCTG 18 0 

CACCCCACAG GGAGTCCTCA AATTCTACCC CCATACCCAG TCCTCCCCAC GGCTCCTCCT 24 0 

ACTAATGCCA AACCCTCTCT GGCTTCTACA GCCCAAAAGG GAACAAATAA AAGAGCCTTC 300 

AGAGAGCCAA GAGACCCCAC TGGCCCCTGG CTATGTCCTC TTCAGGCTGT AGGAGGGGAA 360 

TTTGGCCCAA CCCGAGTACA TGTTCCCTTT TCTCTCTCTG ATCTAAAGCA AATTAAGGCA 4 20 

GACTTGGATG AAAGTTCTCA GATGACCCCA ATAGATACGT AGATGGCCTG CTGGGTCTGG 4 80 

GACAATCTTT TGACCTTTCC TGGAGAGAGA TCATGTTATT GCTTGATCAG ACCTAACCTC 540 

TAATGAGAAG AATGCTGCTT TAACAGGAGC CCGAGAGTTT GGGGATACCT GGTACCTCAG 600 

TTAAGTAAGT GATAGAATGA CAT CAGAAG A GAGCAGTTTC CTACTGGCCA GCAAGCAGTC 660 

CCCAGTATGG ATCCCCACTG GGACCCTGAC TCGGATCATG GGGACTGGAG TCACAAACAT 7 20 

TTACTGACCT GTATCCTAGA AGGGTTAAGG AGAACTAGGA AAAAGCC CAT GAACTATTCA 7 80 

ATGATGTCTA CTATAACCCA AGGGAAGGAA GAAAACCCTA TTGCCTTCCT CAAAAGGCTG 840 

AGGGAGGCTT TGAGAAAATA TACTCCCCTG TCACCAGATT CCCTCGAAGG CCAGTTAATT 900 

TTAAAGGACA AATTTATTAC TCAGTCAGCT GCAGACATTA GGAAAAAGCT CCAAAAGTTA 

GCCTTGGGCC GAGCAAAATT TGGAGGCATC ATTAAACCTG GCAACCTCAG TGTTCTATCA 

TAGGGACCAA GAGGAACAGG CCGAAAAGGA AAAGCAGGAT AAGAGAAAGG CTGCAGATTT 

AGTCATGCCC TCAGACAAAC CTTGGCGGTT CAAAGAGGAG AAAAAATGGA GCAGGCCAAT 

CACCCAGCAG GGCTTATTAT CAGTGCAGTT TACAAGGACA CTTTAAACAA GATTGTCCAA 

AGAGAAATAA GCCGCCCTCT CACCCATGTC CACTATGCCA AGGTGATCAC TGGAAGGCAC 1260 

ACTGT.CCCAG AGGACAAAGG TTCTCTGGGC CAGAAGTCCC CAACCAGATG ATCCAGCAAC 1320 

AGGATGGAGG GTGCCCGGGG CAAGCACCAG CTCGTGTTGT CA / / 136? v 

VX (2) INFORMATIONS POUR LA SEQ ID NO: 14: HE 9 . ' 

V\ (i) CARACTERISTIQUES DE LA SEQUENCE: , , V 

' ^(A) "^LONGUEUR: 945 paires de bases / x \ V / 

(B) y TYPE : nucleotide , < \ r x >> /y 

(C) ^NOMBRE* DE BRINS : simple ^^\\ s t^ f> /,/ 
v (D) CONFIGURATION: lineaire <- ^ Yr^J^ " ,/ / V^ 



960 
1020 
1080 
1140 
1200 



(ii) TYPE ^DE MOLECULE: ADN (genomique) , 



(xi) DESCRIPTIOnCdE LA SEQUENCE: SEQ ID NO: 14: • 

TTGCAGATCA ATCTCAGACT GCTGTGCTAG "CAATGAGTGA GGCTTCGTGG GCATGGGACC 60 

CTCTGAGCCA GGCATGGGAT ATAATGTCCT TGTGTGCCAT TTGCTAAGAC TGTTGGAATA 120 

GCACAGTATT AGGGTGGGAG TGGCCCGATT TTCCAGGTGC TGTCTGTCAC CGCTTCCCTT 180 

GGCTAGGAAA GAGAATTCCC TGACCCCTTG TTCTTCCCAG GTAAGGCAGT GCCTCACCCT 24 0 
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GCTTCAGCTC ACACTCAGGT GACTGCACCC ACTGTCCTGC CCCCACTGTC GGACAAGCCC 300 

CAGTGAGATG AACCTGGTAC CTCAGTTGGA AATGCAGAAA TCACCTGTCT TCTGCGTCAC 360 

TCACACTGGG AGCTGTAGAC TGGAGCTGTT CCTATTTGGC CATCTTGGAA CCATCTCCCA 420 

AATAGACTCT TTGGCAGCAG TGACTCTCCA AAACCACCAA GGCCTAGACC TCCTCATTGC 4 80 

TGAGAAAGGA GGACTCTGCA CCTTCTTAGG GGAGGAGTGT TGTTTTTATA CTGACCAGTC 540 

AGGGATGGTA CGAGATGCCA CCCGATGTTT ACAGGAAAAG GCTTCTGAAA TCACACAACA 600 

CCTTTCAAAC TCTTATACCA ACCTCTGGAG TTGGGCAACA TGGCTTCTCC CCTTTCTCGG 660 

TCCCATTGCA GCCATCTTGC TATTACTCGC CTTCAGGCTG TGTATTTTTA ACCTCCTTGT 720 

CAAATTTGTT TCCTCTAGAA TTGAGGCCGT CAAGCTACAG ATGGTCTTAC AAATGGGACC 780 

CCAAATGAGC TCAACTAACA ACTTCTGCCA AGGACCCCTG GACCAACCTG CTGGCCCTTT 84 0 

CACTGGCCTT AAGAGTTCCC CTCTGGAGGG CACTACAACT GCAGGGCCCC TTCTTTGCCC 900 

CTATCCAGCA GGAAGTAGCT AGAGCAGTCA TCACCCAATT CCCAA 945 
(2) INFORMATIONS POUR LA SEQ ID NO: 15: HE10 

(i) CARACTERI ST I QUE S DE LA SEQUENCE • 

(A) LONGUEUR: 939 paires de base* 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 15: 

AGAGCTACCT TGGCAAGTAC TCTAGGAGTA TGGGAAAATG AAAACAACAA ACTCACACAC 60 

CATTTTAACA TACACAATCA GGTCTGCCCA CCCAGCAAGG TATATTCTTT GTATGTGGAA 120 

CATCGACCTA TATCTGCCTC CCCACTAACT AGACAGCCAC CTGAATCTTA GTCTTTCTAA 180 

GTCCCAACAG TAACATTGCC CCAGGAAATC AGACCATATC AGTATCCCTC AAAGCTCAAG 24 0 

TCTGTCAGTG CAGAGCCATA CAACTAATAC CCCTACTTAT AGGGTAAGGA ATGGCTACTG "300 

CTACAGGAAC CAGAATAGCT AGTTTGTTTA CTTCATTATC CTACTACCAC ACACTCTCAA 3 60 

ATGATTTCTC AGACAGTTTG CAAGAAATAA CGAAATCTAT CCTTACTCTA CAATCCCAAA 420 

TAGACTCCTT GGCAGCAGTG ACCCTCCAAA ACGGCTGAGG CCTAGACCTC CTCACTGCCA 4 80 

AGAAAGGAGG ACTCTGCATT TTCTTAGGGG AAGAGTGTTT TTACACTAAC CAGTCAGGGA 54 0 

CAGTATGAGA TGCCACTCGG AGTTTACAGG AAAAGGCTTC TGAAGTCAGA CAATGCCTTT 600 

CAAACTCTAT ACCAAACTCT GGAGTTGGGC AACATGGCTT CTCCCCTTTC TAGGTCCCGT 660 

GACAGCCATC TTGCTATTAT TTGCCTTTGA GCCCTGTATT TTTAATCTCC TTTTCAAATT 7 20 

TGTTTCCTCT GGATCGAGGC CATCGAGCTA CAGATGGTCT TCACAAATGG AACCCCAAAT 7 80 

GAGCTCAACT AACAACTTCT ACTGAGGACC CCTGGACTAA CCTGCTGACC CTTTCACTGG 84 0 

CCTGAAGAAT TCCCCTCTGG AGGACACTAC AACTGCAGGG CTCCTTCTTT GCCCCTATCC : 900 

AGCAGGAAGT AGCTAGAGCT GTCATTGCCT AATTCCTAA ' 93 g 
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(2) INFORMATIONS POUR LA SEQ ID NO: 16: HE11 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 97 9 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 
■ (D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE : SEQ ID NO: 16: 

AGTGATAATG GAATACTTGA AAGTAATCCC CTCACTCCCC AGGAACTAGT GCTCAGCTGG 60 

CAGAACTAAT AGCCCTCACT CGGGTACTAG AATCAGGAGA ,AGGAAAAAGG GTAAATATAT / 12 0 

ATACAGACTC TAAGTGTGCT TACCTAGTCC TCCATGCCCA TGCAGCAATA TGGAGAGAAA 180 

GGGAATTCCT AACTTCCGAG GGAACACCTA TCAAACATCA GGAAGCCATT AGGAAATTAT 24 0 

TATTGGCTGT ACAGAAACCT AAAGAGGTGG CAGTTTTACA CTGCCGGGGT CATCAGAAAG 300 

GAAAGGAAAG GGAAATACAA GGGAGCCACC AAGTTGATAT TGAAGTCAAA AG AG C C AC AA 360 

GGCTGGACCC TCCATTAGAA ATGCTTATAG GAGGACCCCT AGTATGGGGT AATCCCCTCC 42 0 

GGGAAGCCAA GCCCCAGTAC TCAGCAGGAG AAATAGAATA GGGAACTTCA TGAGGACATA 4 80 

CTTCCCTCCC CTCCAGATGG CTAGCCACCA ATAAAGGAAA AATACTTTTG CCTGCAGCTA 54 0 

ACCAATAGAA ATTACTTAAA ACCCTTCATC AAACCTTCCA CTTAGGCATT GATAGCACCC 600 

ATGAGATGGC CAAATTATTA TTTACTGGAC CAGGCCTTTT CAAAACTATC AAGCAGATAG 6 60 

TCAGGGCCTG TAAAGTCTGC CAAAGAAATA ATCCCCTGCA CTGCAGGCCA TACATTTCAA , 720 

TCCCTGTATC TTTAACCTCC TTCTTAAATT TGTCTCTTCC AGAATCAAAG CTGTAAAATT 780 

AC AAAT AG T T CTTCAAATGG AGCCACAGAT GCAGTCCATG ACTAAGATCC ACCACAGACC 840 

CCTGGACCAG CCTGCTAGCC CATGCTCCAA TGTTAATGAC ATCGAAGGCA CCCCCTCCTG 900 

AGGAAATCTC AACTGCACAA CCCCTACTAC GCCCCAATTC AGCAGAAAGC AGTTAGAGTG 960 

GTCATCAGCC AACCTCCCC v ' * 979 

(2) INFORMATIONS POUR LA SEQ ID NO: 17: HG11 ^ y ^ * ; 

(i) CARACTERISTIQUES DE LA SEQUENCE: 
-S .; (A) LONGUEUR: 1774 paires de bases ' x. 

^ (B) TYPE: nucleotide ' ,f V, v 

'V\ (C) NOMBRE. DE BRINS: simple . .. J " S V- " /V 

\ v v (D)' CONFIGURATION: lineaire' : '\^ ^ 



(ii^ TYPE DE MOLECULE : ADN (genomique) 



■ x 



(xi) DESCRIPTION DE LA SEQUENCE : -SEQ S ID NO: 17: : 
C ATG CTGG TAAAGGAC CG CTAGAATCCAGCAGC CAGGAC CACTTTCTTTGTGG TCAAGAAAGGTGGGAAAACA 



G 



GTGCAGGACTGCTACACTGGTAAGCATAACTAATCCGATAAGCAGAGGTCCATGGGTGGTTACGCACCCTGGA 
AAGGAATAAGCATTAGGACTATAGAGGACACTCTAGGACTAATGCTCATCGGAAAATGACTAGGGGTACTGGC 
ATCCCTATGTTCTTTTTTCAGATGGGAAATGTTCCCCCCAAGGCAGAAATGCCCCTAAGATGTATTCTGGAGA 
AATGGGACCAATCTGACCATCAGACACTAAGAAAGAAATGACTTATATTCTTCTGCAGTACCACCTGGCCACA 
ATATCTTCTTCAAGGGGCAGAAACCTGGCCTCCTGAGGGAAGTATAAATTATAACACCATCTTACAGCTAGAC 
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CTCTTTTGTAGAAAAGAAGGCAAATGGAGTGAAGTGCCATATGTACAAACTTTCTTTTCATTAAGAGATAACT 
CCCAATTATGTAAAAAGTGTGATTTATGCCCTACAGGAAGCCCTCAGAGTCTACCTCCCGACCCCAGCAAGAC 
CCCAACTCCTTCTCCAACTAATAAGGACCCCCCTTCAACCCAAATGGTCCAAAAGGAGATAGACAAAGGGGTA 
AACAATGAACCAAAGAGTGCCAATATTACACGATTATACTCGCTCCAAGCAGTGGGAGGAGAATTTGGCCCAG 
CCAGCGTGCATGTACCTTTTTCTCTCTCAGATTTAAAGCAAATTAAAATAGACCTAGGTAAATTCTCAGATAA 
CCCTGATGGCTATATTGATGTTTTACAAGGGTTAGGACAATCCTTTGATCTGACATGGAGAGATATAATGTTA 
CTGCTAAATCAGACACTAACCCCAAATGAAAAAAGTGCTGCCATAACAGCAGCCTGAGAGTTTGGCGAACTCT 
GGTATCTCAGTCAGGTCAATGATAGGATGACAACAGATGAAAGAGAATGATTCCCCACAGGCCAGCAGGCAGT 
TCCCAGTGTAGACCCTCATTAGGACACAGAATCAGAACTTGGAGATTGGTGCCACAGACATTTGCTAACTTGC 
GTGCTAGAAGGACTAAGGAAAACTAGGAAGAAGCCCATGAATTATTCAATGATGTCCCCTATAACACAGGGAA 
AGGAAGAAAATCCTACTGCCTTTCTGGAGAGACTAAGGGAAGGATTGAGGAAGCATACCTCCCTGTCACCTGA 
CTCTATTAAAGGCCAACTAATCTTAAAGGATAAGTTTATCACTCAGTCAGCTGCAGAGATTAAGAAAAAACTT 
CAAAAGTATGCCTTAGGCCCAGAGCAAAACTTAGAAACCCTACTGAACTTGGCAACCTCAGTTTTTTATAATA 
GAGATCAGGAAGAGCAGGGGAATGGGACAAATGGGATAAAAAAAAAAAAAAAAGGTGACTGCTTTAGTCGTGG 
CCCTCAGGCAAATGGACTTTGGAGGCTCCAGAAAAGGGAAAAGCTGAGCAAATTGAATGCCTAACAGGGCTTG 
CTTCTAGTGTGGTCTACAAGGAGACTTTAAAAAAGATTGTCCAAGTAGAAACAAGCTGCCCCCTTGTCCATGC 
CCCTTATGTCAAGGGAATCACTGGAAGGCCCACTGCCCCAGGAGATGAAGGTCCTCTGAGTCAGAAGCCACTA 
ACCAGATAATCCAGCAGCAGGACTGAGGATGCCCAGGGCJ^AGCGCCAGCCCATGCCATCACCCTCACAGAGCC 
TTGGGTATGCTTGACCATTGA 

(2) INFORMATIONS POUR LA SEQ ID NO: 18: HE12 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 938 paires de bases 

(B) TYPE: nucleotide 

(C) N OMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 18: 



TGTAGGAAGA 


ACTCCCTTCA 


GGACAGGACA 


ATAGATGGTT 


CCTCCCAGGT 


GATTAAGGAA 


60 


AAAAGACACA 


G TAT T C AG T A 


AG T G AT AAGG 


AAACTCTTGT 


AGAAGCAGAG 


TTAGAAAAAT 


120 


TGCCTAATAA 


TTGGTCTGCT 


CAAATGTGTG 


AGTTGTTTGC 


ACTCAGCCAA 


ATCTTAAAGT 


180 


ACTTACAGAA 


TCAGGAAGCA 


GCCATCTATA 


CCAATTCTAA 


GTTAATATGG 


ACTAAACGAG 


240 


GTTTTATTAG 


TAG C AAAG AA 


AAATTAAAAT 


CCCAAACTTA 


CAAGGTTTTC 


AACTAAAGTT 


300 


TGCCAAAAGT 


TAACAGTGTA 


ACATGTATTA 


TCCTACTATC 


ACACACTCTC 


AAAGGATTTC 


360 


TCAGACAGTT 


TGCAAGAAAT 


AACGTAATCT 


ATCCTTACTC 


TACAGTCCCA 


AATAGACTCT 


420 


TTGGTAGCAG 


TGACTCTCCA 


AAACTGCCGA 


GGTCTAGACC 


TCCTCAATGC 


TGAGAAAGGA 


480 


GAACTCTGCA 


CCTTCTTAGG 


GGAAGAGTGC 


TGTTTTTACA 


CTAACCAGTC 


AGGGATAGTA 


540 


TGAGATACTG 


CCTGACGTTT 


ACAGGAAAAG 


GCTTCTGAAA 


TCAGACAACG 


CCTTTCAAGC 


600 


T CT TAT AC CA 


ACCTCTGGAG 


TTGGGCAACA 


TGGCTTCTCC 


CCTTGCTAGG 


TCCTGTGGCA 


660 


GCCATCTTGC 


TATTACTTGC 


CTTCGGGCCC 


TGTATTTTTA 


ACCTCCTTGT 


CAAATTTGTT 


720 


TCCTCTAGGA 


TCAAGGCCAT 


CAAGCTACAG 


ATGGTCTTAC 


AAATGGAACC 


CCAAATGAGC 


780 


TCAACTAACA 


ACTTCTACTG 


AGGACACCTG 


GACTGACCCA 


CTGGCCCTTT 


CACTGGCCTA 


840 


AAGAGTTCCC 


TTCTGGAGGA 


CACTACAACT 


GCAGGGCCCC 


GTCTTCACCC 


CT AT C C AG C A 


900 


GGAAGTAGCT 


AGATCAGTCA 


TTGCCCAATT 


CCCAACAG 






938 
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(2) INFORMATIONS POUR LA SEQ ID NO: 19: HG12 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 1308 paires de bases 

(B) TYPE: nucleotide 

■(C) NOMBRE DE BRINS : simple 
(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 19: 

GATGCTTGCC CCAGGCACCC TCAGTCCTGT TGTTGGATCA TCTGGTCGGG GGCTTCTGGC 60 

CCAAAGAACC TTTGTCCTCT GAGGCAGTGC ACCTTCCAGT GATTGCCTCA GCATTGTGGA 120 , 

CATGGGCAAG GGGGCAGCTT GTTTCTCACT GGACAATCTT TTTTAAGGTG TCCTTCCAAA 180 

CCACACTGGT AACAAGCCCT ACCAGGTGAT TGGCCTGCTC TATTTTCTGT CCTCTCTGAA 24 0 

CCACCAAGGT TTGTCTGTCT GAGGGTCATG ACTAAGGCTG TGGCCTTTCT CTGATCTTGC 300 

TTTTCCTTTT TGGCCTGTTC CTCTTGGTAC CTATTATAGA ACACTGAGGT TGCCAGGTTT 3 60 

AACAATGGCT CCAGATTTTG TTCAGGGCAC AGGGCTCATT TTGGAGCTTT CTCCTGATAT 4 20 

CTGCAGCTGA TTGGGTAATA AACTTATCTT TTAGGATCAA TTGACTCTCA AGAGAGTTGG 480 

GTGACAGGGG AGTATATTTC CTTGAGGCCT CCCATAGCCG CTCTAGGAAG GCAGAAGGAT 54 0 

TTTCTTCCTT TCCCTGAGTT ATAAAAGACA TCATTGAACA ACTCATGGAC TTTTTCCCAA 600 

TTCTCCGTAG TCCTTCTAGA ACACAGGTCA GCAGATGTTT ACGACTCCAG TCCCCATGAT 660 

CTGAGTCTAG ACACCAGTGG GGATCCATAC TGGGGATGGC CTGCTGACTG GTAGGGAATT 1 720 

TGTCCCTTTC TTTGGCTGTC ATTCTATCAT TTACTTGACT AAGATACCAA GTATCTCCAA 7 80 

ATTCTCAGGC TGCAGCTAAA GCTGCATTCT TTTCATTAAA GGCCAGGGTT TGATCTAATA 84 0 

GCATGACATC TCTCCAAGTG AGGTCAAAGG TTTGCCCTAG ATCCATAGGA CAT C AG AG AA 900 

-GGAGAAGGGG AC AT AC AC CT GAGTTAGCCA AATTCCCCTC CCTCTACAGC TTGAAGGGGA 960 

CATAAGCAAT AGCCTGGGGA TTTTTGTGGT CCTTTGGAGA TTTCTTTGCT TGTTTCCTTC 1020 

TGGGTGGGGG AGATTAGAGG AGGCTTATCA GTAATAGGAA GGGGAGCTAT- AGGGAGGCTA ' 1080 

GGATATGGGG GTAAGCTGAG AGGTCATCTT GTGGGATGTA AATTGCAAGC TTTGCATAGT/ 11 4 0 



TGTGGATTTT CCTTACAATG AAAATAAAGC TTGGACATAA GGTATTTCAC TCCATTTGCC "V .1200.// 

\x - , - ■ " // . 

TTCCCTGTTA CAGAAAAGGT CAAGCTGCAG GATAGTACTG TAATTTATAC TTCCTTCAGG 1-2.60 

■ /■' ■ .„ ^ \ ./ \\"-" 

TGGCCATTTC TTCCCATCAG AGAGAGAATA CTGGGGCTGG GCCATAGT \ ' 1308 
(2) INFORMATIONS- POUR LA SEQ ID NO: 20: Rl " 



(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR : 711' paires -de- bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 
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(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 20: 
ACTGAGAGAC AGGACTAGCT GGATTTCCTA GGCCGACTAA GAATCCCTAA GCCTAGCTGG 60 

GAAGGTGACC ACGTCCACCT TTAAACACGG GGCTTGCAAC TTAGCTCACA CCTGACCAAT 120 

CAGAGAGCTC ACTAAAATGC TAATTAGGCA AAGACAGGAG GTAAAGAAAT AGCCAATCAT 180 

CTATTGCCTG AGAGCACAGC AGGAGGGACA ACAATCGGGA TATAAACCCA GGCATTCGAG 24 0 

CTGGCAACAG CAGCCCCCCT TTGGGTCCCT TCCCTTTGTA TGGGAGCTGT TTTCATGCTA 300 

TTTCACTCTA TTAAATCTTG CAACTGCACT CTTCTGGTCC ATGTTTCTTA CGGCTCGAGC 360 

TGAGCTTTTG CTCACCGTCC ACCACTGCTG TTTGCCACCA CCGCAGACCT GCCGCTGACT 4 20 

CCCATCCCTC TGGATCCTGC AGGGTGTCCG CTGTGCTCCT GATCCAGCGA GGCGCCCATT 4 80 

GCCGCTCCCA ATTGGGCTAA AGGCTTGCCA TTGTTCCTGC ACGGCTAAGT GCCTGGGTTT 540 

GTTCTAATTG AGCTGAACAC TAGTCACTGG GTTCCATGGT TCTCTTCTGT GACCCACGGC 600 

TTCTAATAGA ACTATAACAC TTAC CACATG GCCCAAGATT CCATTCCTTG GAATCCGTGA 660 

GGCCAAGAAC TCCAGGTCAG AGAATACGAG GCTTGCCACC ATCTTGGAAG C 7U 
(2) INFORMATIONS POUR LA SEQ ID NO: 21: R1F 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 711 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 21: 

ACTGAGAGAC AGGACTAGCT GGATTTCCTA GGCTGACTAA GAATCCCTAA GCCTAGCTGG 60 

GAAGGTGACC ACATCCACCT TTAAACACGG GGCTTGCAAC TTAGCTCACA CCTGACCAAT 120 

CAGAGAGCTC ACTAAAATGC TAATTAGGCA AAGACAGGAG GTAAAGAAAT AGCCAATCAT 180 

CTATTGCCTG AGAGCACAGC AGGAGGGACA ATGATCGGGA TATAAACCCA AGTCTTCGAG 24 0 

CCGGCAACGG CAACCCCCTT TGGGTCCCCT CCCTTTGTAT GGGAGCTCTG TTTTCATGCT 300 

ATTTCACTCT ATTAAATCTT GCAACTGCAC TCTTCTGGTC CATGTTTCTT ACGGCTTGAG 360 

CTGAGCTTTC GCTCGCCATC CACCACTGCT GTTTGCCGCC ACCGCAGACC CGCCGCTGAC 4 20 

TCCCATCCCT CTGGATCATG CAGGGTGTCC GCTGTGCTCC TGATCCAGCG AGGCACCCAT 4 80 ■ 

TGCCGCTCCC AATCGGGCTA AAGGCTTGCC ATTGTTCCTG CATGGCTAAG TGCCTGGGTT 54 0 

CATCCTAATT GAGCTGAACA CTAGTCACTG GGTTCCATGG TTCTCTTCTG TGACCCACAG 600 

CTTCTAATAG AGCTATAACA CTCACCGCAT GGCCCAAGGT TCCATTCCTT GAATCCATAA 660 

GGCCAAGAAC CCCAGGTCAG AGAACACGAG GCTTGCCACC ATCTTGGGAG C 7n 

lllil" n^ITVT ^ SE ° 10 N ° : 22 : HERV " 7 ^ ( P artie codante w avec 
trois cadres de lecture) 

(i) CARACTERISTIQUES DE LA SEQUENCE * 
(B) TYPE: nucleotide 
CO NOMBRE DE BRINS: simple 
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<D) CONFIGURATION: lin6aire 
(ii) TYPE DE MOLECULE: ADN (g6nomique) 

(xi) DESCRIPTION DE . LA SEQUENCE: SEQ ID NO: 22: 

AAGCTCCTTCAGGAGAACAAAGAACAGGCCATTACCCTGGAGAAGACTGGCAACTGATTTTACCCT^CAAGCCCAA 
LysIieuLeuGlnGluAsnLysGluGlnAlalleThrLeuGluLysThrGlyAsn. . . PheTyrProGlnAlaGln 
S e r S e r Phe ArgAr gThr Ly s AsnAr gPr oLeuPr oTrpAr gAr gLeuAl aThr Asp PheThr H i s Ly s Pr oLy s 
AlaProSerGlyGluGlnArgThrGlyHisTyrProGlyGluAspTrpGlnLeuIleLeuProThrSerProAsn 

ACCTCAGGGATTTCAGTATCTACTAGTCTGGGTAGATACTTTCACGGGTTGGGCAGAGGCCTTCCCCTGTAGGAC 
ThrSerGlylleSerValSerThrSerLteuGlyArgTyrPheHisGlyLeuGlyArgGlyLeuProLreu . . .Asp 
ProGlnGlyPheGlnTyrLeuLeuValTrpValAspThrPheThrGlyTrpAlaGluAlaPheProCysArgThr 
LeuArgAspPheSerlleTyr . . .SerGly. . . IleLeuSerArgValGlyGlnArgProSerProValGlyGln 

AGAAAAGGC CCAAGAGGTAATAAAGGCACTAGTTCATGAAATAATT C CC AG ATTCGGACTTC C C CG AGGCTTAC A 
ArgLysGlyProArgGlyAsnLysGlyThrSerSer . . . AsnAsnSerGlnlleArgThrSerProArgLeuThr 
GluLysAlaGlnGluVallleLysAlaLeuValHisGluIlelleProArgPheGlyljeuProArgGlyLeuGln 
LysArgProLysArg ArgHis. . . PheMETLys . . . PheProAspSerAspPheProGluAlaTyrArg 

GAGTGACAATAGCCCTGCTTTCCAGGCCACAGTAACCCAGGGAGTATCCCAGGCGTTAGGTATACGATATCACTT 
Glu. . .Gin. . . ProCysPheProGlyHisSerAsnProGlySerlleProGlyValArgTyrThrlleSerLeu 
SerAspAsnSerProAlaPheGlnAlaThrValThrGlnGlyValSerGlnAlaLeuGlylleArgTyrHisLeu 
ValThrlleAlaLeuLeuSerArgProGln. . . Pro ArgGluTyr Pro ArgAr g . . . ValTyrAspIleThrTyr 

ACACTGCGCCTGAAGGCCACAGTCCTCAGGGAAGGTCGAGAAAATGAATGAAACACTCAAAGGACATCTAAAAAA 
ThrLeuArgLieuLysAlaThrValLeuArgGluGlyArgGluAsnGlu . . . AsnThrGlnArgThrSerLysLys 
HisCysAla . . . ArgProGlnSerSerGlyLysValGluLysMETAsnGluThrLeuLysGlyHisLeuLysLys 
ThrAlaProGluGlyHisSerProGlnGlyArgSerArgLys . . . METLysHisSerLysAspIle . . .LysSer 

GCAAACCCAGGAAACCCACCTCACATGGCCTGCTCTGTTGCCTATAGCCTTJU^AAGAATCTGCAACTTTCCCCA 

385 395 405 415 ' 425 435 445 

AlaAsnProGlyAsnProProHisMETAlaCysSerValAlaTyrSerLeuLysLysAsnLeuGlnLeuSerPro 
GlnThrGlnGluThrHisLeuThrTrpProAlaLeuLeuProIleAlaLeuLysArglleCysAsnPheProGln 
LysProArgLysProThrSerHisGiyLeuLeuCysCysLeu. . .Pro. . . LysGluSerAlaThrPheProLys 

AAAAGCAGGACTTAGCCCATACGAAATGCTGTATGGAAGGCCCTTCATAACCAATGACCTTGTGCTTGACCCAAG 
LysSerArgThr. . .ProIleArgAsnAlaValTrpLysAlalieiiHisAsnGln. . .ProCysAla. . . ProLys 
LysAlaGlyLeuSerProTyrGluM^ 
LysGlnAspLeiiAlaHisThrliysCysCysMETGluGlyPrbSer . . VProMETThrLeuGysLeuThrGlriAsp 

ACAGCCAACTTAGTTGC^ 
ThrA\aAsnLeuValAla^ 

GlnProThr. . . ieuGlnThrSerProPro . . . ProAsnlleAsnLysPneLWLysHisfyrLysGluProIle 
SerGlnLeuSerCysArgHisHisLeuLeuSerGlnlleSerThrSerSer . . . AsrilieThrArgAsnLeuSer 

CCCTGAGAAGAGGGAAAAGAACTATTCCACCCTTGTGACATGGTATTAGTCAAGTCCCTTCCCTCTAATTCCCCA 
Pro . . . GluGluGlyLysGluLeu 

ProGluLysArgGluLysAsnTyrSerThrLeuValThrTrpTyr . . . SerSerProPheProLeuIleProHis 
LeuArgArgGlyLysArgThrlleProProLeu. \ . HisGlylleSerGlnValProSerLeu . . . PheProIle 

/ 
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TCCCTAGATACATCCTGGGAAGGACCCTACCCAGTCATTTTATCTACCCCAACTGCGGTTAAAGTGGCTGGAGTG 
SerLeixAspThrSerTrpGluGlyProTyxProVallleLeuSerThrProThrAlaValLysValAlaGlyVal 
Pro. . . IleHisProGlyLysAspProThrGlnSerPheTyrLeuProGliiLeuArgLeuLysTrpLeuGluTrp 
ProArgTyrlleLeuGlyArgThrLeuProSerHisPhelleTyrProAsnCysGly . . . SerGlyTrpSerGly 

GAGTCTTGGATACATCACACTTGAGTCAAATCCTGGATACTGCCAAAGGAACCTGAAAATCCAGGAGACAACGCT 
GluSerTrpIleHisHisThr . . . ValLysSerTrpIleLeuProLysGluProGluAsnProGlyAspAsnAla 
SerLeuGlyTyrlleThrLeuGluSerAsnProGlyTyrC^ 
ValLeiiAspThrSerHisLeuSerGlnlleLeuAspThrAlaLysGlyThr . . . LysSerArgArgGlnArg . . . 

AGCTATTCCTGTGAACCTCTAGAGGATTTGCGCCTGCTCTTCAAACAACAACCAGGAGGAAAGTAACTAAAATCA 
SerTyrSerCysGluProLeuGluAspLeuArgLeuLeuPheLysGlnGlnProGlyGlyLys . . . LeuLysSer 
AlalleProValAsnLeu. . . Argil eCysAlaCysS erSerAsnAsnAsnGlnGluGluS erAsn . . .AsnHis 
LeuPheLeu . . . ThrSerArgGlyPheAlaProAlaLeuGlnThrThrThrArgArgLysValThrLysIlelle 

TAAATCCCCATGGCCCTCCCTTATCATATTTTTCTCTTTACTGTTCTTTTACCCTCTTTCACTCTCACTGCACCC 
. . . IleProMETAlaLeuProTyrHisIlePheLeuPheThrValLeuLeuProSerPheThrLeuThrAlaPro 
LysSerProTrpProSerLeuIlellePhePheSerLeuLeuPhePheTyrProLeuSerLeuSerLeuHisPro 
AsnProHisGlyProProLeuSerTyrPheSerLeuTyrCysSerPheThrLeuPheHisSerHisCysThrPro 

CCTCCATGCCGCTGTATGACCAGTAGCTCCCCTTACCAAGAGTTTCTATGGAGAATGCAGCGTCCCGGAAATATT 
ProProCvsAraCvsMETThrSerSerSerProTyrGlnGluPheLeuTrpArcrMETGlnArQProGlvAsnlle 
LeuHisAlaAlaVal . . . ProValAlaProLeuThrLysSerPheTyrGlyGluCysSerValProGluIleLeu 
SerMETProLeuTyrAspGln. . . LeuProLeuProArgValSerMETGluAsnAlaAlaSerArgLysTyr . . . 

GATGCCCCATCGTATAGGAGTCTTTCTAAGGGAACCCCCACCTTCACTGCCCACACCCATATGCCCCGCAACTGC 
AspAlaProSerTyrArgSerLeuSerLvsGlvThrProThrPheThrAl aHisThrHisMETProArgAsnCys 
METProHisArglleGlyValPheLeuArgGluProProProSerlieuProThrProIleCysProAlaThrAla 
CysProIleVal . . .GluSerPhe. . . GlyAsnProHisLeuHisCysProHisProTyrAlaProGlnLeuLeu 

TATCACTCTGCCACTCTTTGCATGCATGCAAATACTCATTATTGGACAGGAAAAATGATTAATCCTAGTTGTCCT 
TyrHisSerAlaThrLeuCvsMETHisAlaAsnThrHisT\rrTrpThrGlvLvsMETIleAsnProSerCvsPro 
IleThrLeuProLeuPheAlaCysMETGlnlleLeuIlelleGlyGlnGluLys . . . LeuIleLeuValValLeu 
SerLeuCysHisSerLieuHisAlaCysLysTyrSerLeuLeuAspArgLysAsnAsp . . .Ser. . .LeuSerTrp 

GGAGGACTTGGAGTCACTGTCTGTTGGACTTACTTCACCCAAACTGGTATGTCTGATGGGGGTGGAGTTCAAGAT 
GlvGlvLeuGlvValThrValCvsTrpThrTvrPheThrGlnThrGlvMETSerAspGlvGlvGlvValGlnAsp 
GluAspLeuGluSerLeuSerValGlyLeuThrSerProLysLeuValCysLeuMETGlyValGluPheLysIle 
ArgThrTrpSerHisCysLeuIjeuAspLeuLeiiHisProAsnTrpTyrVal . . . TrpGlyTrpSerSerArgSer 

CAGGCAAGAGAAAAACATGTAAAAGAAGTAATCTCCCAACTCACCCGGGTACATGGCACCTCTAGCCCCTACAAA 
GlnAlaArcrGluLvsHisValLvsGluVallleSerGlnLeuThrArcrValHisGlvThrSerSerProTvrLvs 
ArgGlnGluLysAsnMET. . .LysLys. . . SerProAsnSerProGlyTyrMETAlaProLeuAlaProThrLys 
GlyLysArgLysThrCysLysArgSerAsnLeuProThrHisProGlyThrTrpHisLeu. . . ProLeuGlnArg 

. GGACTAGATCTCTCAAAACTACATGAAACCCTCCGTACCCATACTCGCCTGGTAAGCCTATTTAATACCACCCTC 
GlyLeuAspLeuSerLysLeuHisGluThrLeiiArQThrHisThrArQLeuValSerLeuPheAsnThrThrljeu 
~ Asp. . . IleSerGlnAsnTyrMETLysProSerValProIleLeuAlaTrp. . . AlaTyrLeuIleProProSer 
ThrArgSerLeuLysThrThr . . . AsnProProTyrProTyrSerProGlyLysProIle . . . TyrHisProHis 

ACTGGGCTCCATGAGGTCTCGGCCCAAAACCCTACTT^ACTGTTGGATATGCCTCCCCCTGAACTTCAGGCCATAT 
ThrGlvLeuHisGluValSerAlaGlnAsnProThrAsnCvsTrpIleCysLeuProLeiiAsnPheArqProTvr 
LeuGlySerMETArgSerArgProLysThrLeuLeuThrValGlyTyrAlaSerPro . . . ThrSerGlyHisMET 
TrpAlaPro. . . GlyLeuGlyProLysProTyr . . . LeuLeuAspMETProProProGluLeuGlnAlalleCys 
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GTTTCAATCCCTGTACCTGAACAATGGAACAACTTCAGCACAGAAATAAACACCACTTCCGTTTTAGTAGGACCT 
ValSerlleProValProGluGlnTrpAsnAsnPheSerThrGluIleAsriThrThrSerValLeuValGlvPro 

PheGlnSerLeuTyrLeuAsnAsnGlyThrThrSerAlaGlnLys . . . ThrProLeuProPhe AspLeu 

PheAsnProCysThr . . . ThrMETGluGlnLeuGlnHisArgAsnLysHisHisPheArgPheSerArgThrSer 

CTTGTTTCCAATCTGGAAATAACCCATACCTCAAACCTCACCTGTGTAAAATTTAGCAATACTACATACACAACC 
LeuValSerAsnLeuGluIleThrHisThrSerAsnLeuThrCvsValLysPheSerAsnThrThrTvrThrThr 
LeuPheProIleTrpLys . . . ProIleProGlnThrSerProVal . . . AsnLeuAlalleLeuHisThrGlnPro 
CysPheGlnSerGlyAsnAsnProTyrLeuLysProHisLeuCysLysIle . . . GlnTyrTyrlleHisAsnGln 

AACTCCCAATGCATCAGGTGGGTAACTCCTCCCACACAAATAGTCTGCCTACCCTCAGGAATATTTTTTGTCTGT 
AsnSerGlnCvsIleAraTrpValThrProProThrGlnlleValCvsIieuProSerGlvIlePhePheValCvs 
ThrProAsnAlaSerGlyGly. . . LeuLeuProHisLys . . . SerAlaTyrProGlnGluTyrPheLeuSerVal 
LeuProMETHisGlnValGlyAsnSerSerHisThrAsnSerLeuProThrLeuArgAsnllePheCysLeuTrp 

GGTACCTGAGCCTATCGTTGTTTGAATGGCTCTTCAGAATCTATGTGCTTCCTCTCATTCTTAGTGCGGCCTATG 
GlvThrSerAlaTvrArgCvsLeiiAsnGlvSerSerGluSerMETCvsPheLeuSerPheLeuValProProMET 
ValProGlnProIleValVal . . . METAlaLeuGlnAsnLeuCysAlaSerSerHisSer . . . CysProLeu. . . 
TyrLeuSerLeuSerLeuPheGluTrpLeuPheArglleTyrValLeuProLeuIleLeuSerAlaProTyrAsp 

ACC ATCTAC ACTGAACAAG ATTTATACAGTTATGT C ATATCTAAGCCCCGCAACAAAAGAGTAC C C ATTCTTC CT 
Thr 1 1 eTvr Thr GluGlnAspLeuTyr S e rTyrVa 1 I I e S er Lvs Pr oArqAsnLvs ArgVa 1 Pro 1 1 eLeuPro 
ProSerThrLeuAsnLysIleTyrThrValMETSerTyrLeuSerProAlaThrLysGluTyrProPhePheLeu 
HisLeuHis. . .ThrArgPhelleGlnLeuCysHisIle. . . AlaProGlnGlnLysSerThrHisSerSerPhe 

TTTGTTATAGGAGCAGGAGTGCTAGGTGCACTAGGTACTGGCATTGGCGGTATCACAACCTCTACTCAGTTCTAC 
PheVallleGlvAlaGlvValLeuGlvAlaLeuGlvThrGlvIleGlvGlvIleThrThrSerThrG lnPheTvr 
LeuLeu . . . GluGlnGluCys . . .ValHis. . . ValLeuAlaLeuAlaValSerGlnProLeuLeuSerSerThr 
CysTyrArgSerArgSerAlaArgCysThrArgTyrTrpHisTrpArgTyrHisAsnLeuTyrSerValLeuLeu 

TACAAACTATCTCAAGAACTAAATGGGGACATGGAACGGGTCGCCGACTCCCTGGTCACCTTGCAAGATCAACTt 
TvrLvsLeuSerGlnGluLeuAsnGlvAspMETGluAraValAlaAspSerLeuValThrLeuGlnAs pGlnLeu 
ThrAsnTyrLeuLysAsn . . . METGlyThrTrpAsnGlySerProThrProTrpSerProCysLysIleAsnLeu 
GlnThrlleSerArgThrLysTrpGlyHisGlyThrGlyArgArgLeuProGlyHisLeuAlaArgSerThr . . . 

AACTCCCTAGCAGCAGTAGTCCTTCAAAATCG^GAGCTTTAGACTTGCTAACCGCTGAAAGAGGGGGAACCTGT 
AsnSerLeuAlaAlaValValLeuGlnAsriArqArqAlaLeuAspLeuLeuThf^AlaGliiArqGlvGlvThrCvs 
ThrPro. . .GlnGln . . . SerPheLysIleGluGluLeu . . . ThrCys . . '. ProLeuLysGluGlyGliiProVal 
LeuProSerSerSerSerProSerLysSerLysSerPheArgLeuAlaAsriArg . . . LysArgGlyAsnLeuPhe 

v <y'- ■ ' ? - . ■ . - ' -// 

TTATTTTTAGGGGAAGAATGCTGTTATTATGTTAATCAATCCGGAATCGTCACTGAGAAAGT 
LeuPheLeuGlvGluGIuCvsCvsTvr^^ 

TyrPhe . . . GlyLysAsixAlaVallleMETLeuIleAsnProGluSerSerLeuA 
IlePheArgGlyArgMETLeuLeuLeuCys . . . SerlleArgAsnArgHis . . . GlaiSer. . . ArgAsnSerArg 

~ . - /' A ■ 1 ■ 

GATCGAATACAACGTAGAGCAGAGGAGCTTCGAAACACTGGACCCTGGGGGCTCCTCAGCCAATGG 

AspArqlleGlnArqArqAlaGluGlu^ 

IleGluTyrAsnValGluGlriArgSerPheGluThrLeuAspProGlyAlaSerSerAlaAsnGlyCysProGly 
SerAsnThrThr . . . SerArgGlyAlaSerLysHisTrpThrLeuGlyProProGlnProMETAspAlaLeuAsp 



/ 
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ATTCTCCCCTTCTTAGGACCTCTAGCAGCTATAATATTGCTACTCCTCTTTGGACCCTGTATCTTTAACCTCCTT 
IleLeuProPhelieuGlvProLeiiAlaAlallelleLeuIieuLeuLeuPheGlvProCvsIlePheAsnLeuLeu 
PheSerProSer. . .AspLeu. . .GlnLeu. . . TyrCysTyrSerSerLeuAspProValSerLeuThrSerLeu 
SerProLeuLeiiArgThrSerSerSerTyrAsnlleAlaThrProLeuTrpThrLeuTyrLeu . . . ProProCys 

GTTAACTTTGTCTCTTCCAGAATCGAAGCTGTAAAACTACAAATGGAGCCCAAGATGCAGTCCAAGACTAAGATC 
ValAsnPheValSerSerArglleGliiAlaValLvsLeuGlnMETGluProLvsMETGlnSerLvsThrLvsIle 
LeuThrLeuSerLeuProGluSerLysLeu. . . AsnTyrLysTrpSerProArgCysSerProArgLeuArgSer 
. . .LeuCysLeuPheGlnAsnArgSerCysLysThrThrAsnGlyAlaGlnAspAlaValGlnAsp. . .AspLeu 

TACCGCAGACCCCTGGACCGGCCTGCTAGCCCACGATCTGATGTTAATGACATCAAAGGCACCCCTCCTGAGGAA 
TyrArQArgProLeTaAspArgProAlaSerProArgSerAspValAsnAspIleLvsGlvThrProProGluGlu 
ThrAlaAspProTrpThrGlyLeuLeuAlaHisAspLeuMET^ 
ProGlnThrProGlyProAlaCys . . .ProThrlle. . . Cys. .... . HisGlnArgHisProSer . . .GlyAsn 



ATCTCAGCTGCACAACCTCTACTACGCCCCAATTCAGCAGGAAGCAGTTAGAGCGGTCGTCGGCCAACCTCCCCA 
IleSerAlaAlaGlnProLeuLeuArgProAsnSerAlaGlySerSer . . . SerGlyArgArgProThrSerPro 
SerGlnLeuHisAsnLeuTyrTyrAlaProIleGlnGlnGliiAlaValArgAlaValValGlyGlnProProGln 
LeuSerCysThrThrSerThrThrProGlnPheSerArgLysGlnLeuGluArgSerSerAlaAsnLeuProAsn 

ACAGCACTTAGGTTTTCCTGTTGAGATGGGGG 
ThrAlaLeuArgPheSerCys . . . AspGlyGly 
GlnHisLeuGlyPheProValGluMETGly 
SerThr. . . ValPheLeuLeuArgTrpGly 

(2) INFORMATIONS POUR LA SEQ ID NO: 23: HERV-7q (prdteine env deduite) 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADN (genomique) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 23: 

PKTANLVADITSLAKYQQVLKTLQG 
CCCAAGACAGCCAACTTAGTTGCAGACATCACCTCCTTAGCCAAATATCAACAAGTTCTTAAAACATTACAAGGA 

TYPXEEGKELFHP CDMVLVKSLPSN 
ACCTATCCCTGAGAAGAGGGAAAAGAACTATTCCACCCTTGTGACATGGTATTAGTCAAGTCCCTTCCCTCTAAT 

SPSLDTSWEGPYPVILSTPTAVKV A 
TCCCCATCCCTAGATACATCCTGGGAAGGACCCTACCCAGTCATTTTATCTACCCCAACTGCGGTTAAAGTGGCT 

GVESWIHHTXVKSWILPKEPENPGD 
GGAGTGGAGTCTTGGATACATCACACTTGAGTCAAATCCTGGATACTGCCAAAGGAACCTGAAAATCCAGGAGAC 
■N ASYSCEPLEDLRLLFKQQPGGK*L 
AACGCTAGCTATTCCTGTGAACCTCTAGAGGATTTGCGCCTGCTCTTCAAACAACAACCAGGAGGAAAGTAACTA 

K SX I PMA LPYHIFLFTVLLPS FTLT 
AAATCATAAATCCCCATGGCCCTCCCTTATCATATTTTTCTCTTTACTGTTCTTTTACCCTCTTTCACTCTCACT 

APP PCRCMTS SSPYQEFLWRMQRPG 
GCACCCCCTCCATGCCGCTGTATGACCAGTAGCTCCCCTTACCAAGAGTTTCTATGGAGAATGCAGCGTCCCGGA 

.N I D A P S YR S L S KGTP T FTAH THM PR 
AATATTGATGCCCCATCGTATAGGAGTCTTTCTAAGGGAACCCCCACCTTCACTGCCCACACCCATATGCCCCGC 

N. CY H S AT L CMHANTHY W T G KM I N P S 
AACTGCTATCACTCTGCCACTCTTTGCATGCATGCAAATACTCATTATTGGACAGGAAAAATGATTAATCCTAGT 
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CPGGLGV.TVCWTY'FTQTGMSDGGGV 
TGTCCTGGAGGACTTGGAGTCACTGTCTGTTGGACTTACTTCACCCAAACTGGTATGTCTGATGGGGGTGGAGTT 

QDQAREKHVKEVISQLTRVHGTS SP 
. CAAGATCAGGCAAGAGAAAAACATGTAAAAGAAGTAATCTCCCAACTCACCCGGGTACATGGCACCTCTAGCCCC 

YKGLDLS .KLHET LRTHTRLVS L FNT 
TACAAAGGACTAGATCTCTCAAAACTACATGAAACCCTCCGTACCCATACTCGCCTGGTAAGCCTATTTAATACC 

TLTGLHEVSA QNP.TNCWICLPLNFR 
ACCCTCACTGGGCTCCATGAGGTCTCGGCCCAAAACCCTACTAACTGTTGGATATGCCTCCCCCTGAACTTCAGG 

PYVSIPV PEQWNNFST EINTTSVLV 
CCATATGTTTCAATCCCTGTACCTGAACAATGGAACAACTTCAGCACAGAAATAAACACCACTTCCGTTTTAGTA 

G P L.V S N L E I T H T S N L T C V K F S N T T Y 
GGACCTCTTGTTTCCAATCTGGAAATAACCCATACCTCAAACCTCACCTGTGTAAAATTTAGCAATACTACATAC 

T T N S Q ' C I R W V T P P ,T Q I V C V L P S , G I F F 
ACAACCAACTCCCAATGCATCAGGTGGGTAACTCCTCCCACACAAATAGTCTGCCTACCCTCAGGAATATTTTTT 

V C G T S A Y R C L N G S S E S M C F L S F L V P 
GTCTGTGGTACCTCAGCCTATCGTTGTTTGAATGGCTCTTCAGAATCTATGTGCTTCGTCTCATTCTTAGTGCCC 

P M T I Y T E Q D L Y S Y V I S K P R N K R V P I 
C CTATGAC CAT C TACACTGAAC AAGATTTATACAGTTATGTC ATATCTAAG CC C CGC AACAAAAG AGTAC C CATT 

L P F V I G A G V L G A L G T G I G G I T T S T Q 
CTTCCTTTTGTTATAGGAGCAGGAGTGCTAGGTGCACTAGGTACTGGCATTGGCGGTATCACAACCTCTACTCAG 

F Y Y K L S Q E L NG D M E RVAD S L V T L Q D 
TTCTACTACAAACTATCTCAAGAACTA7^ATGGGGXCATGGAACGGGTCGCCGACTCCCTGGTCACCTTGCAAGAT 

QLNSLAAVVLQNRR ALDLLTAE R G G 
CAACTTAACTCCCTAGCAGCAGTAGTCCTTCAAAATCGAAGAGCTTTAGACTTGCTAACCGCTGAAAGAGGGGGA - 

T C L FL G E E C CYY VN Q S G I VTE KV KE 
ACCTGTTTATTTTTAGGGGAAGAATGCTGTTATTATGTTAATCAATCCGGAATCGTCACTGAGAAAGTTAAAGAA 

IRDRIQRRA EELRNTGPWGLLS QWM 
ATTCGAGATCGAATACAACGTAGAGCAGAGGAGCTTCGA^CACTGGACCCTGGGGCCTCCTCAGCCAATGGATG 

P W I L P .F L G P L A A I I L L L L F G P C I. F N 
CCCTGGATTCTCCCCTTCTTAGGACCTCTAGCAGCTATAATATTGCTACTCCTCTTTGGACCCTGTATCTTTAAC 

L L V N F V S S R I E A V K L Q M E P K M Q S K T • 
CTCCTTGTTAACTTTGTCTCTTCCAGAATCGAAGCTGTAAAAC 

K I Y R R P L D R P A S P R S D V N D I K G f P P 
AAGATCTACCGCAGACCCCTGGACCGGCCTGCTAGCGCACGATCTGATGTTAATGAGATCAAAGGCACCCCTCCT 

E E ISA A Q P L L R P N S A G S S X S G R . R P T 
GAGGAAATCtCAGCTGCACAACCTCTACTACGCCGCAATTCAGCAGGAAGCAGTTAGAGCGGTCGTCGGCCAACC 

S P T A L R F S C X /, 
TCCCCAACAGCACTTAGGTTTTCCTGTTGA . / /' - 

(2) INFORMATIONS POUR LA SEQ ID NO: 24: HERV-7q (partie codante gag) x . // 

> - ' ■ - "■ ■ y , v . / / 

W (i) CARACTERI STIQUES DE LA SEQUENCE " y S;/ ' // 

\X (B)vTYPE: nucleotide ■ - - r <f\. /J' 

\X (C) NOMBRE DE BR INS : simple ' , - \ X C ^' 

\/v (D) CONFIGURATION: lineaire ' , \ ^ \\ v ' ,/ 

V:x " : /<' ^ . . , v> v- v yy 

(ii) TYPE DE MOLECULE: ADN ( genomique ) ' V > ' ,^>*' 



(xi) DESCRIPTION DE. LA SEQUENCE: SEQ ID NO: 24 : 

T S F V E K A " ' ~N ' G V- - K * '"**"c H K Y 

ACC TCT TTT GTA GAA AAG GCA AAT GGA GTG AAG TGC CAT AAG TAC 

KLS FHXETTHNYVK S 

AAA' CTT TCT TTT CAT TAA GAG ACA ACT CAC AAT TAT GTA AAA /aGT 

V I Y-A L Q E A F R V-Y L P I 

GTG ATT TAT GCC CTA CAG GAA GCC TTC AGA GTC TAC CTC CCT ATC 
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p 


A 


S 


P 


T 


P 


S 


P 


T 


N 


K 


D 


P 


P 


S 


CCA 


GCA 


TCC 


CCG 


ACT 


CCT 


TCC 


CCA 


ACT 


AAT 


AAG 


GAC 


CCC 


CCT 


TCA 


T 


Q 


M 


V 


Q 


K 


E 


I 


D 


K 


R 


V 


N 


S 


E 


ACC 


CAA 


ATG 


GTC 


CAA 


AAG 


GAG 


ATA 


GAC 


AAA 


AGG 


GTA 


AAC 


AGT 


GAA 


P 


K 


S 


A 


N 


I 


P 


Q 


L 


X 


P 


L 


Q 


A 


V 


CCA 


AAG 


AGT 


GCC 


AAT 


ATT 


CCC 


CAA 


TTA 


TGA 


CCC 


CTC 


CAA 


GCA 


GTG 


G 


G 


R 


E 


F 


G 


P 


A 


R 


V 


H 


V 


P 


F 


S 


GGA 


GGA 


AGA 


GAA 


TTC 


GGC 


CCA 


GCC 


AGA 


GTG 


CAT 


GTG 


CCT 


TTT 


TCT 


L 


P 


D 


L 


K 


Q 


I 


K 


T 


D 


L 


G 


K 


F 


S 


CTC 


CCA 


GAC 


TTA 


AAG 


CAA 


ATA 


AAA 


ACA 


GAC 


TTA 


GGT 


AAA 


TTC 


TCA 


D 


N 


P 


D 


G 


Y 


I 


D 


V 


L 


Q 


G 


la 


G 


Q 


GAT 


AAC 


CCT 


GAT 


GGC 


TAT 


ATT 


GAT 


GTT 


TTA 


CAA 


GGG 


TTA 


GGA 


CAA 


F 


F 


D 


L 


T 


W 


R 


D 


I 


M 


S 


L 


L 


N 


Q 


TTC 


TTT 


GAT 


CTG 


ACA 


TGG 


AGA 


GAT 


ATA 


ATG 


TCA 


CTG 


CTA 


AAT 


CAG 


T 


L 


T 


P 


N 


E 


R 


S 


A 


T 


I 


T 


A 


A 


X 


ACA 


CTA 


ACC 


CCA 


AAT 


GAG 


AGA 


AGT 


GCC 


ACC 


ATA 


ACT 


GCA 


GCC 


TGA 


E 


F 


G 


D 


L 


W 


y 


L 


S 


Q 


V 


N 


D 


R 


M 


GAG 


TTT 


GGC 


GAT 


CTC 


TGG 


TAT 


CTC 


AGT 


CAG 


GTC 


AAT 


GAT 


AGG 


ATG 


T 


T 


E 


E 


R 


E 


X 


F 


P 


T 


G 


Q 


Q 


A 


V 


ACA 


ACA 


GAG 


GAA 


AGA 


GAA 


TGA 


TTC 


CCC 


ACA 


GGC 


CAG 


CAG 


GCA 


GTT 


p 


s 


L 


D 


P 


H 


W 


D 


T 


E 


S 


E 


H 


G 


D 


CCC 


AGT 


CTA 


GAC 


CCT 


CAT 


TGG 


GAC 


ACA 


GAA 


TCA 


GAA 


CAT 


GGA 


GAT 


w 


C 


c 


R 


H 


L 


L 


T 


C 


V 


L 


E 


G 


L 


R 


TGG 


TGC 


TGC 


AGA 


CAT 


TTG 


CTA 


ACT 


TGT 


GTG 


CTA 


GAA 


GGA 


CTA 


AGG 


K 


T 


R 


K 


K 


S 


M 


N 


Y 


S 


M 


M 


S 


T 


I 


AAA 


ACT 


AGG 


AAG 


AAG 


TCT 


ATG 


AAT 


TAC 


TCA 


ATG 


ATG 


TCC 


ACC 


ATA 


T 


Q 


G 


R 


E 


E 


N 


P 


T 


A 


F 


L 


E 


R 


L 


ACA 


CAG 


GGA 


AGG 


GAA 


GAA 


AAT 


CCT 


ACT 


GCC 


TTT 


CTG- 


GAG 


AGA 


CTA 


R 


E 


A 


L 


R 


K 


R 


A 


S 


L 


S 


P 


D 


S 


S 


AGG 


GAG 


GCA 


TTG 


AGG 


AAG 


CGT 


GCC 


TCT 


CTG 


TCA 


CCT 


GAC 


TCT 


TCT 


E 


G 


Q 


L 


I 


L 


K 


R 


K 


F 


I 


T 


Q 


S 


A 


GAA 


GGC 


CAA 


CTA 


ATC 


TTA 


AAG 


CGT 


AAG 


TTT 


ATC 


ACT 


CAG 


TCA 


GCT 


A 


D 


I 


R 


K 


K 


L 


Q 


K 


S 


A 


V 


G 


P. 


E 


GCA 


GAC 


ATT 


AGA 


AAA 


AAA 


CTT 


CAA 


AAG 


TCT 


GCC 


GTA 


GGC 


CCG 


GAG 


O 


N 


L 


E 


T 


L 


L 


N 


L 


A 


T 


S 


V 


F 


Y 


CAA 


AAC 


TTA 


GAA 


ACC 


CTA 


TTG 


AAC 


TTG 


GCA 


ACC 


TCG 


GTT 


TTT 


TAT 


N 


R 


D 


Q 


E" 


E 


Q 


A 


E 


Q 


D 


K 


R 


D 


X 


AAT 


AGA 


GAT 


CAG 


GAG 


GAG 


CAG 


GCG 


GAA 


CAG 


GAC 


AAA 


CGG 


GAT 


TAA 


K 


K 


G 


H 


R 


F 


S 


H 


D 


P 


Q 


A 


S 


G 


L 


AAA 


AAA 


GGC 


CAC 


CGC 


TTT 


AGT 


CAT 


GAC 


CCT 


CAG 


GCA 


AGT 


GGA 


CTT 


W 


R 


L 


W 


K 


R 


E 


K 


L 


G 


K 


L 


N 


A 


X 


TGG 


AGG 


CTC 


TGG 


AAA 


AGG 


GAA 


AAG 


CTG 


GGC 


AAA 


TTG 


AAT 


GCC 


TAA 



(2) INFORMATIONS POUR LA SEQ ID NO: 25: proteine env (cadre de lecture 

(i) CARACTERISTIQUES DE LA SEQUENCE: 
(B) TYPE: acide amine, 
(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: proteine 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 25: 

PKTANLVADITSLAKYQQVLKTLQGTYPXEEGKELFHPCDIWLVKSLPSNSPSLDTSWEG 
PYPVILSTPTAVKVAGVESWIHHTXVKSWILPKEPENPGDNASYSCEPLEDLRLLFKQQP 
GGK^LKSXIPMALPYHIFLFTVLL.PSFTLTAPPPCRCMTSSSPYQEFLWRMQRPGNIDAP 
SYI^SLSKGTPTFTAHTHMPRNCYHSATLCMHANTHYWTGKMINPSCPGGIjGVTVCWTYFT 
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QTGMSDGGGVQDQAREKHVKEVISQLTRVHGTSSPYKGLDLSKLHETLRTHTRLVSLFNT 
TLTGLHEVSAQNPTNCWICLPIiNFRPYVSIPVPEQWNNFSTEINTTSVLVGPLVSNLEIT 
HTSNLTCVKFSNTTYTTNSQCIRWVTPPTQIVCLPSGIFFVCGTSAYRCLNGSSESMCFL 
SFLVPPMTIYTEQDLYSYVISKPRNKRVPILPFVIGAGVLrGALGTGIGGITTSTQFYYKX. 
SQEI^GDMERVADSLVTLQDQIuNSIiAAVVLQNRRALDLLTAERGGTCLFLGEECCYYVNQ 
SGIVTEKVKEIRDRIQRRAEELROTGPWGLLSQWMPWILPFLGPLAAIILLLLFGPCIFN 
LLVNFVS S RI EAVKLQME PKMQSKTKI YRRPUDRP AS PRS DVND I KGTP PEE I S AAQPLL 
RPNS AGS S XSGRRPTS PTALRFS CX 

(2) INFORMATIONS POUR LA SEQ ID NO: 26: proline gag 

(i) CARACTERISTIQUES DE LA SEQUENCE: 
(B) TYPE: acide amine, 
(D) CONFIGURATION: lineaire L 

(ii) TYPE DE MOLECULE: proteine 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 26: 

TS FVEKANGVKCHKYKLS FHXETTHNYVKS VI YALQEAFRVYLP I PASPTPS PTNKDPPS 
TQMVQKEIDKRVNSEPKSANIPQLXPLQAVGGREFGPARVHVPFSLPDLKQIKTDLGKFS 
DNPDGYIDVLQGLGQFFDLTWRDIMSLLNQTLTPNERSATITAAXEFGDLWYLSQVNDRM 
TTEEREXFPTGQQAVPSLDPHWDTESEHGDWCCRHLLTCVLEGLRKTRKKSMNYSMMSTI 
TQGREENPTAFLERLREALRKRASLSPDSSEGQLILKRKFITQSAADIRKKLQKSAVGPE 
QNLETLLNIiATSVFYNRDQEEQAEQDKRDXKKGHRFSHDPQASGLWRLWKREKLGKLNAX 



(2) INFORMATIONS POUR LA SEQ ID NO: 27: proteine env (cadre de lecture 1) 

(i) CARACTERISTIQUES DE LA SEQUENCE: 
(B) TYPE: acide amine, 
(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: proteine 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 27: 

LysLeuLeuGlnGluAsnLysGluGlnAlalleThrLeuGluLysThrGlyAsn. . . PheTyrProGlnAlaGln 
ThrSerGlylleSerValSerThrSerLeuGlyArgTyrPheHisGlyLeuGlyArgGlyLeuProLeu. . .Asp 
ArgLysGlyProArgGlyAsnLysGlyThrSerSer . . . AsnAsnSerGlnTleArgThrSerProArgLeuThr 
Glu. . . Glh . . .ProCysPheProGlyHisSerAsnProGlySerlieProGlyValArgTyrThrlleSerLeu 



ThrLe\iArgLeuLysAlaThrValLetiArgGluGlyArgGl\iAsnGlu . . . AsnThrGlriArgThrSerLysLys 

Xx - >*,-. v - *>\-.:> 

AlaAsnPrbGlyAsnProPtoHisMETAlaCysSerValAlaTyr 

v v x M *■ ■ ; - . ' ' ■ iV - ,\ ■ yy 

LysSerArgThr V X RroIleA ^ . ■ ■ ProLys 

ThrAlaAsnLeuValAlaAspIleTh^ 

Pro . . .GluGluGlyLysGluLeuPheHisProCysAspMETValLeuValLysSerLeuProSerAsnSerPro 
SerLeuAspThrSerTrpGluGlyProTyrProVallleLeuSerThrProThrA^aValLysValAlaGlyVal 
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GluSerTrpIleHisHisThr . . . ValLysSerTrpIleLeuProLysGluProGluAsnProGlyAspAsnAla 

SerTyrSerCysGluProLeuGluAspLeuArgLeuLeuPheLysGlnGlnProGlyGlyLys . . . LeuLysSer 

. . . IleProMETAlaLeuProTyrHisIlePheLeuPheThrValLeuLeuProSerPheThrLeuThrAlaPro 

ProProCvsArqCvsMETThrSerSerSerProTvrGlnGluPheLeuTrpArgMETGlnAraProGlvAsnlle 

AspAlaProSerTvrArQSerLeuSerLvsGlvThrProThrPheThrAlaHisThrHisMETProAraAsriCvs 

TvrHisSerAlaThrLeuCvsMETHisAlaAsnThr^ 

Glv<51y:LeuGlyValThrValCvsTrT>ThrTv^ 

GlnAlaAiraGluLvsHisValLvsGluVallleSerGlnLeuThrAraValHisGlvThrSerSerProTvrLrVS 
GlvLeuAspLeuSerLvsLeuHisGluThrLexiAraThrHisThrAjraLeuValSerLeuPheAsnThrThrLeu 
ThrGlvLeuHisGluValSerAlaGlnAsnProThrAsnCvsTrpIleCvsLeuProLeuAsnPheAraProTvr 
ValSerlleProValProGluGlnTrpAsnAsnPheSerThrGluIleAsnThrThrSerValLeuValGlvPro 
LeuValSerAsnLeuGluIleThrHisThrSerAsnLeuThrCysValLvsPheSerAsnThrThrTvrThrThr 
AsnSerGlnCvsIleArgTrpValThrProProThrGlnlleValCvsLeuProSerGlvIlePhePheValCvs 
GlvThrSerAlaTyrArgCvsLeuAsnGlySerSerGluSerMETCvs PheLeuSerPheLeuValProProMET 
ThrlleTvrThrGluGlnAspLeuTvrSerTvrVallleSerLvsProArgAsnLvsArgValProIleLeuPro 
PheVallleGlvAlaGlvValLeuGlvAlaLeuGlvThrGlvIleGlvGlvIleThrThrSerThrGlnPheTvr 
TvrLvsLeuSerGlnGluLetiAsnGlvAspMETGluArgValAlaAspSerLeuValThrLeuGlriAspGlriLeu 
AsnSerljeuAlaAlaValValLeuGlnAsnArgArgAlaLeuAspLeuLeuThrAlaGlijArgGlvGlvThrCvs 
LeuPheLeuGlvGluGluCvsCvsTvrTvrValAsnGlnSerGlvIleValThrGluLvsValLvsGluIleArg 
AspArglleGlnArgArgAlaGluGluLeuArgAsnThrGlvProTrpGlyLeuLeuSerGlnTrpMETProTrp 
1 1 eLeuPr oPheLeuG 1 yProLeuAl aAl a 1 1 e I leLeuLeuLeuLeuPheGlyProCys I lePheAsnLeuLeu 
ValAsnPheValSerSerArglleGluAlaValLvsLeuGlnMETGluProLysMETGlnSerLvsThrLvsIle 
TvrArgArgProLeuAspArgProAlaSerProArgSerAspValAsiiAspIleLvsGlvThrProProGluGlu 
IleSerAlaAlaGlnProLeuLeuArgProAsnSerAlaGlvSerSer . . . SerGlyArgArgProThrSerPro 
ThrAlaLeuArgPheSerCys . . . AspGlyGly 

(2) INFORMATIONS POUR LA SEQ ID NO: 28: proteine env (cadre de lecture 2) 

<i) CARACTERI STIQUES DE LA SEQUENCE: 
(B) TYPE: acide amine, 
(D) CONFIGURATION: lineaire 
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(ii) TYPE • DE MOLECULE: proline 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 28: 

SerSerPheArgArgThrLysAsnArgProLeuProTrpArgArgLeuAlaThrAspPheThrHisLysProLys 

ProGlnGlyPheGlnTyrLeuLeuValTrpValAspThrPheThrGlyTrpAlaGluAlaPheProCysArgThr 
GluLysAlaGlnGluVallleLysAlaLeuValHisGluIlelleProArgPheGlyLeuProArgGlyLeuGln 

SerAspAsnSerProAlaPheGlnAlaThrValThrGlnGlyValSerGlnAlaLeuGlylleArgTyrHisLeu 
HisCysAla . . . ArgProGlnSerSerGlyLysValGluLysMETAsnGluThrLeuLysGlyHisLeuLysLys 
GlnThrGlnGluThrHisLeuThrTrpProAlaLeuLeuProIleAlaLeuLysArglleCysAsnPheProGln 
LysAlaGlyLeuSerProTyrGluMETLeuTyrGlyArgProPhelleThrAsnAspLeuValLeuAspProArg 
GlnProThr. . . LeuGlnThrSerProPro . . . ProAsnlleAsnLysPheLeuLysHisTyrLysGluProIle 
ProGluLysArgGluLysAsnTyrSerThrLeuValThrTrpTyr . . . SerSerProPheProLeuIleProHis 
Pro. . . IleHisProGlyLysAspProThrGlnSerPheTyrLeuProGlnLeuArgLeuLysTrpLeuGluTrp 
SerLeuGlyTyrlleThrLeuGluSerAsnProGlyTyrCysGlnArgAsnLeuLysIleGlnGluThrThrLeu 
AlalleProValAsnLeu. . . ArglleCysAlaCysSerSerAsnAsnAsnGlnGluGluSerAsn . . .AsnHis 
LysSerProTrpProSerLeuIlellePhePheSerLeuLeuPhePheTyrProLeuSerLeuSerLieuHisPro 
LeuHisAlaAlaVal ... . ProValAlaProLeuThrLysSerPheTyrGlyGluCysSerValProGluIleLeu 
METProHisArglleGlyValPheLeuArgGluProProProSerLeuProThrProIleCysProAlaThrAla 
IleTh'rLeuProLeuPheAlaCysMETGlnlleLeuIlelleGlyGlnGluLys . . . LeuIleLeuValValLeu 

xGluAspLeuGluSerLeuSerValGlyLeuThrSerProLysLeuValCysLeuMETGlyV 

ArgGlnGluLysAsnMET.. . .LysLys. . . SerProAsnSerProGlyTyrMET^ 

Asp . . ; IleSerGlxiAsnTyrMETLysProSerValProIleLexoAlaTrp;. AlaTyrLeuIleProProSer 
LeuGlySerMETArgSerArgProLysThrLeuLieuThrValGlyTyrAlaSerPro: . . ThrSerGlyHisMET 

PheGlnSerLeuTyrLeuAsnAsnGlyThrThrSerAlaGlnLys : V . TlirProLeuProPhe AspLeu 

LeuPheProIleTrpLys . . . ProIleProGlnThrSerProVal . . . AsnLeuAlalleLeuHisThrGlnPro 
ThrProAsnAlaSerGlyGly . . . LeuLeuProHisLys . . . SerAlaTyrProGlnGluTyrPheLeuSerVal 
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ValProGlnProIleValVal. . . METAlaLeuGlnAsnLeuCysAlaSerSerHisSer . . .CysProLeu. . . 
ProSerThrLeuAsnLysIleTyrThrValMETSerTyrLeuSerProAlaThrLysGluTyrProPh 
LeuLeu. . . GluGlnGluCys . . .ValHis. . . ValLeuAlaLeuAlaValSerGlnProLeuLeuSerSerThr 
ThrAsnTyrLeuLysAsn . . . METGlyThrTrpAsnGlySerProThrProTrpSerProCysLysIleAsnLeu 
ThrPro. . .GlnGln. . . SerPheLysIleGluGluLeu . . .ThrCys. . . ProLeuLysGluGlyGluProVal 
TyrPhe . . . GlyLysAsnAlaVallleMETLeuIleAsnProGluSerSerLeuArgLysLeuLysLysPheGlu 
IleGluTyrAsnValGluGlnArgSerPheGluThrLeuAspProGlyAlaSerSerAlaAsnGlyCysProGly 
PheSerProSer. . .AspLeu. . .GlnLeu. . . TyrCysTyrSerSerIie\iAspProValSerLeuThrSerLeu 
LeuThrLeuSerLeuProGluSerLysLeu . . . AsnTyrLysTrpSerProArgCysSerProArgLeuArgSer 
ThrAlaAspProTrpThrGlyLeuLeuAlaHisAspLeuMETLeuMETThrSerLysAlaProLeuLeuArgLy^ 

SerGlnLeuHisAsnLeuTyrTyrAlaProIleGlnGlnGluAlaValArgAlaValValGlyGlnProProGln 
GlnHisLeuGlyPheProValGluMETGly 

(2) INFORMATIONS POUR LA SEQ ID NO: 29: proteine env (cadre de lecture 3) 

(i) CARACTERISTIQUES DE LA SEQUENCE: 
(B) TYPE: acide amine, 
(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: proteine 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 29: 

AlaProSerGlyGluGlnArgThrGlyHisTyrProGlyGluAspTrpGlnLeuIleLeuProThrSerProAsn 
LeuArgAspPheSerlleTyr. . .SerGly. . . IleLeuSerArgValGlyGlnArgProSerProValGlyGln 

LysArgProLysArg ArgHis . . . PheMETLys.. . . PheProAspSerAspPheProGluAlaTyrArg 

ValThrlleAlaLeuLeuSerArgProGln. . . ProArgGluTyrProArgArg . . . ValTyrAspIleThrTyr 
ThrAlaProGluGlyHisSerProGlnGlyArgSerArgLys. . . METLysHisSerLysAspIle . . .LysSer 
LysProAr-gLysProThrSerHisGlyLeuLeuCysCysLeu. . .Pro. . . LysGluSerAlaThrPheProLys 
LysGlnAspLeuAlaHisThrLysCysCysMETGluGlyProSer . . . ProMETThrLeuCysLeuThrGlnAsp 
SerGlnLeuSerCysArgHisHisLeuLeuSerGlnlleSerThrSerSer . . . AsnlleThrArgAsnLeuSer 
LeuArgArgGlyLysArgThrlleProProLeu. . . HisGlylleSerGlnValProSerLeu . . .PheProIle 
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ProArgTyrlleLeuGlyArgThrLeuProSerHisPhelleTyrProAsnCysGly . . . SerGlyTrpSerGly 
ValLeuAspThrSerHisLeuSerGlnlleLeuAspThrAlaLysGlyThr . . . LysSerArgArgGlnArg . . . 
LeuPheLeu. . . ThrSerArgGlyPheAlaProAlaLeuGlnThrThrThrArgArgLysValThrLysIlelle 
AsnProHisGlyProProLeuSerTyrPheSerLeuTyrCysSerPheThrLeuPheHisSerHisCysThrPro 
SerMETProLeuTyrAspGln . . . LeuProLeuProArgValSerMETGluAsnAlaAlaSerArgLysTyr . . . 
CysProIleVal . . . GluSerPhe. . . GlyAsnProHisLeuHisCysProHisProTyrAlaProGlnLeuLeu 
SerLeuCysHisSerLeuHisAlaCysLysTyrSerLeuLeuAspArgLysAsnAsp . . . Ser . . . LeuSerTrp 
ArgThrTrpSerHisCysLeuLeuAspLeuLeuHisProAsnTrpTyrVal . . . TrpGlyTrpSerSerArgSer 
GlyLysArgLysThrCysLysArgSerAsnLeuProThrHisProGlyThrTrpHisLeu . . . ProLeuGlnArg 
ThrArgSerLeuLysThrThr . . . AsnProProTyrProTyrSerProGlyLysProIle . . . TyrHisProHis 
TrpAlaPro. . . GlyLeuGlyProLysProTyr . . . LeuLeuAspMETProProProGluLeuGlnAlalleCys 
PheAsnProCysThr . . . ThrMETGluGlnLeuGlnHisArgAsnLysHisHisPheArgPheSerArgThrSer . 
CysPheGlnSerGlyAsnAsnProTyrLeuLysProHisLeuCysLysIle . . . GlnTyrTyrlleHisAsnGln 
LeuProMETHisGlnValGlyAsnSerSerHisThrAsnSerLeuProThrLeuArgAsnllePheCysLeuTrp 
TyrLeuSerLeuSerLeuPheGluTrpLeuPheArglleTyrValLeuProLeuIleljeuSerAlaProTyrAsp 
HisLeuHis. . . ThrArgPhelleGlnLeuCysHisIle. . . AlaProGlnGlnLysSerThrHisSerSerPhe 
CysTyrArgSerArgSerAlaArgCysThrArgTyrTrpHisTrpArgTyrHisAsnLeuTyrSerValLeuLeu 
GlnThrlleSerArgThrLysTrpGlyH^ . . , 

LeuProSerSerSerSerProSerLysSerLysSerPheArgLeuAlaAsiiArg . . . LysArgGlyAsriLeuPhe 




. . . LeuCysLeuPheGlnAsnArgSerCysLy^^ . . AspLeu 

ProGlnThrProGlyProAlaCys . . .ProThrlle. . . Cys HisGlnArgHisProSer . . .GlyAsn 

LeuSerCysThrThrSerThrThrProGlnPheSerArgLysGlnLeuGluArgSerSerAlaAsnLeuProAsn 
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SerThr. . . ValPheLeuLeuArgTrpGly 



(2) INFORMATIONS POUR LA SEQ ID NO: 30 : GIF 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 2 6 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 30 
GGACC AT AG AG G AC AC T C C AG GAC T A 
(2) INFORMATIONS POUR LA SEQ ID NO: 31 : G1R 



(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 25 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 31 
CCTCAGTCCTGCTGCTGGATCATCT 

(2) INFORMATIONS POUR LA SEQ ID NO: 32 : G2F 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 27 paires de bases 

(B) TYPE : nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 32 
CCTCCAAGCAGTGGGAGGAAGAGAATT 
(2) INFORMATIONS POUR LA SEQ ID NO: 33 : G2R 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 28 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 
<D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 33 : 
CCTTCCCTGTGTTATTGTGGACATCATT 
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(2) INFORMATIONS POUR LA SEQ ID NO:34 : G4F 

(i) CARACTERISTIQUES DE LA SEQUENCE: 
(A) LONGUEUR: 30 paires de bases 
(BJ TYPE: nucleotide 
(C) NOMBRE DE BRINS : simple 
• (D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 34 : 
GGAAGAAGTCTATGAATTATTCAATGATGT 

(2) INFORMATIONS POUR LA SEQ ID NO: 35 : G3F' 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 27 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 35 : 



GGGACACAGAATCAGAACATGGAGATT 

(2) INFORMATIONS POUR LA SEQ ID NO:36 : G4R 



(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 27 paires de bases 

(B) TYPE:, nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) , CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 36 : 
GCCTTCAGAAGAGTCAGGTGACAGAGA 
(2) INFORMATIONS -POUR LA SEQ ID NO: 37 : GSR 



(ii) 



(i) 



^TYPE DE MOLECULE: ADNc (amorce) 



CARACTERISTIQUES DE LA SEQUENCE : 
(A) LONGUEUR: 25 paires de bases 
-(B); TYPE: • nucleotide 

(C) . NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 




(xi) 



DESCRIPTION" DE LA SEQUENCE: SEQ ID NO: 37 



GAGCCTCCAAAGTCCACTTGCCTGA 



(2) INFORMATIONS POUR LA SEQ ID NO: 38 : E1F 



(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 29 paires de bases 

(B) TYPE : nucleotide 
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(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 38 
GATTTCAGTATCTACTAGTCTGGGTAGAT 



(2) INFORMATIONS POUR LA SEQ ID NO: 39 : E1R 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 27 paires de bases 

(B) TYPE : nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 39 
CTAGGAAATCCAGCTAGTCCTGTCTCA 



(2) INFORMATIONS POUR LA SEQ ID NO: 4 0 : E2F 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 28 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 40 
CCAAGACAGCCAACTTAGTTGCAGACAT 



(2) INFORMATIONS POUR LA SEQ ID NO: 41 : E2R 

(i) CARACTERISTIQUES DE LA SEQUENCE: * 

(A) LONGUEUR: 28 paires de bases 

(B) . TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

Cii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA -SEQUENCE : SEQ ID NO: 41 
GGACGCTGCATTCTCCATAGAAACTCTT 



(2) INFORMATIONS POUR LA SEQ ID NO: 42 : E3F 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 29 paires de bases 

(B) TYPE : nucleotide 

(C) NOMBRE DE BRINS: simple 
CD) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 
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(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO:42 
GCAATACTACATACACAACCAACTCCCAA 

(2) INFORMATIONS POUR LA SEQ ID NO: 43 : E3R 

(i) CARACTERISTIQUES DE LA "SEQUENCE : 

(A) LONGUEUR: 2 6 paires -de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS : simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID^NO:43 
. GGGGGAGGCATATCCAACAGTTAGTA 

(2) INFORMATIONS POUR LA SEQ ID NO: 4 4 : E4F 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) , LONGUEUR: 30 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO:44 
CCATCTACACTGAACAAGATTTATACACTT 

(2) INFORMATIONS POUR LA SEQ ID NO: 45 : E4R 

(i) CARACTERISTIQUES DE LA SEQUENCE:. 

(A) LONGUEUR: 28 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 45 
AATG.C CAGTACCTAGTGCACCTAGCACT 

\(2) INFORMATIONS POUR LA SEQ ID NO: 46 : E5F 

V^ x (i) CARACTERISTIQUES DE LA SEQUENCE: 
V V X \ (A) LONGUEUR: 31 paires de bases 
X C (B) TYPE: nucleotide 

% ( C. ) N OMBRE DE. BRINS: simple ' \ 
( D). CONFIGURATION : lineaire A 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO : 4 



CGAATACAACGTAGAGCAGAGGAGCTTCGAA 
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(2) INFORMATIONS POUR LA SEQ ID NO: 47 : E6F 

(i) CARACTERISTIQUES DE LA SEQUENCE: 
(A) LONGUEUR: 28 paires de bases 
<B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

( D) CONFIGURATION : lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 47 : 
AGCCCAAGATGCAGTCCAAGACTAAGAT 

(2) INFORMATIONS POUR LA SEQ ID NO: 48 : E5R 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 27 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 48 : 
GCGTAGTAGAGGTTGTGCAG CTGAGAT 

(2) INFORMATIONS POUR LA SEQ ID NO: 49 : ExF 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 27 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 4 9 : 
CCCTTACCAAGAGTTTCTATGGAGAAT 

(2) INFORMATIONS POUR LA SEQ ID NO: 50 : ExR 

(i) CARACTERISTIQUES DE LA SEQUENCE: 

(A) LONGUEUR: 27 paires de bases 

(B) TYPE: nucleotide 

(C) NOMBRE DE BRINS: simple 

(D) CONFIGURATION: lineaire 

(ii) TYPE DE MOLECULE: ADNc (amorce) 



(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 50 : 
ACCGCTCTAACTGCTTCCTGCTGAATT 

(2) INFORMATIONS POUR LA SEQ ID NO: 51: proteine gag 

(i) CARACTERISTIQUES DE LA SEQUENCE: 
(B) TYPE: acide amine, 
(D) CONFIGURATION: lineaire 
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(ii) TYPE DE MOLECULE : prot6ine 

(xi) DESCRIPTION DE LA SEQUENCE: SEQ ID NO: 51: 

TSFVEKANGVKCHKYKLSFHXETTHNYVKSVIYALQEAFRVYLPILPASPTPS 

SEPKSANIPQl^PLQAVGGREFGPARVHVPFSLPDLKQIK^ 

IJNQTLTPNERSATITAAXEFGDLWYLSQVNDRMTTE 

EGLRKTRKKSMNY SMMS T I TQGREENPTAFLERLREALRKRASL S PDS S EGQL ILKRKF I TQS AAD I RKKLQKS 
AVGPEQNLETLLNLATSVFYNRDQEEQAEQDKRDXK^ 

RTLXKRLSKXKXAAPSSMPLISRESLEGPLPQGTKVLXVRSHXPD/SSSRT 



fcutfk aval*, 



A* 



REVENDICATIONS 

1°) Fragment d'acide nucleique purifie, caracterise en ce qu'il 
comprend tout ou partie d'une sequence codant pour une sequence retrovirale endo- 
gene humaine, qui presente au moins des motifs retroviraux de type env, repondant a 
5 la sequence SEQ ID NO:l ou a une sequence presentant un niveau d'homologie avec 
ladite sequence SEQ ID NO:l superieur ou egal a 80% sur plus de 190 nucleotides ou 
superieur ou egal a 70% sur plus de 600 nucleotides pour les domaines de type env. 

2°) Fragment d'acide nucleique selon la revendication 1, caracterise 
en ce qu'il presente a la fois de motifs retroviraux correspondant a un domaine env et 

10 repondant a la sequence SEQ ID NO:l et des motifs retroviraux correspondant a un 
domaine gag et repondant a la sequence SEQ ID NO:2 ou a une sequence presentant 
un niveau d'homologie superieur ou egal a 80% sur plus de 190 nucleotides ou supe- 
rieur ou egal a 70% sur plus de 600 nucleotides pour les domaines de type env et un 
niveau d'homologie superieur ou egal a 90% sur plus de 700 nucleotides ou superieur 

15 ou egal a 70% sur plus de 1200 nucleotides pour les domaines de type gag, lesquels 
motifs ne presentent aucune insertion ou deletion superieure a 200 nucleotides. 

3°) Fragment d'acide nucleique, caracterise en ce qu'il comprend un 
segment d'une sequence selon la revendication 1 ou la revendication 2 et notamment 
les sequence SEQ ID NO:3-24, les sequences nucleiques complementaires et les 

20 sequences inverses complementaires des sequences precedentes ainsi que les 
fragments issus des regions codantes des sequences precedentes correspondant a un 
cadre glissant superieur ou egal a 14 nucleotides ou leurs sequences complementaires. 

4°) Transcrits, caracterise en ce qu'ils sont generes a partir des 
sequences selon Tune quelconque des revendi cations 1 a 3. 

25 5°) Reactif de diagnostic pour la detection differentielle de 

sequences nucleiques endogenes humaines completes ou partielles, presentant des 
motifs retroviraux, selectionnes parmi les sequences SEQ ID NO:l et/ou SEQ ID 
NO:2, caracterise en ce qu'il est selectionne dans le groupe constitue par les sequences 
SEQ ID NO: 1-50, les sequences nucleiques complementaires et les sequences inverses 

30 complementaires des sequences precedentes, par les fragments nucleotidiques 
capables de definir ou d'identifier les sequences SEQ ID NO:l et/ou SEQ ID NO:2 et 



A*. 
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toute sequence flanquante ou les chevauchants ainsi que par les fragments issus des 
regions codantes des sequences SEQ ID NO: 1-24, correspondant a un cadre glissant 
superieur ou egal a 14 nucleotides ou leurs sequences complementaires, eventuelle- 
ment marquees avec un marqueur approprie. 
5 6°) Reactif selon la revendication 5, caracterise en ce qu'il est chpisi 

dans les regions situees entre les nucleotides 3065 et 4390 et les nucleotides 6965 et 
9550delaSEQIDNO:3. 

7°) Reactif selbn la revendication 5, caracterise en ce qu'il est selec- 
tionne parmi les sequences SEQ ID NO:30-50 et en ce qu'il est apte a etre utilise 
1 0 comme. amorce. 

8°) Reactif selon la revendication 5, caracterise en ce qu'il est selec- 
tionne parmi les sequences suivarites : 

- un fragment de 1505 nt amplifie par le couple d'amorces SEQ ID 
NO:30 et SEQ ID NO:31 (amorces GIF et G1R), 
15 - un fragment de 2529 nt amplifie par le couple d'amorces SEQ ID 

NO:38 et SEQ ID NO:39 (amorces E1F et E1R) et en ce qu'il est apte a etre utilise 
comme sonde. 

9°) Procede de detection rapide et differentiel des sequences 
nucleiques retroviral es endogenes de type env ou env et gag, de leurs variants 
20 normaux ou pathologiques, par hybridation et/ou amplification genique, realise a partir 
d'un echantillon biologique, lequel procede est caracterise en ce qu'il comprend : 

(a) une etape dans laquelle Ton met en contact un echantillon biolo- 
gique a analyser avec au moins une sonde selon la revendication 5, la revendication^* 
ou la revendication 8. et ^ \ ^ 

25 \ % ' (b) une etape dans laquelle on detecte par tout irioyen approprie le ou 

les produits resultants de F interaction sequence nucleotidique-sonde. yy r 

^ : 1 0?) Procede de detection selon la revendicatipn'9*, caracterise en ce 
qu'il comprend : - • • : • 

* prealablement a 1'etape (a) : 
30 . une etape de preparation du tissu ou du liquide biologique 

concerne. 
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. une etape d'extraction de l'acide nucleique a detecter, et 
. au moins un cycle d'amplification genique mis en ceuvre a l'aide 
d'au moins un reactif selon Tune quelconque des revendications 5 a 7 et 
* posterieurement a Tetape (b) : 

. une etape de comparaison des sequences nucleiques obtenues dans 
ledit echantillon biologique avec les sequences retrovirales endogenes humaines selon 
Tune quelconque des revendications 1 a 3, par tout moyen approprie et notamment par 
sequen9age ? Southern-blot, coupure de restriction, SSCP ou toute autre methode 
permettant d'identifier une insertion ou une deletion ou encore une simple mutation 
entre les differentes sequences comparees. 

11°) Procede de detection des transcrits selon la revendication 4, 
caracterise en ce qu'il comprend : 

- le prelevement des ARN messagers provenant de tissus temoins et 
de tissus preleve chez des patients et 

- P analyse qualitative et/ou quantitative desdits ARNm, par hybri- 
dation in situ, par dot-blot, Northern-blot, RNAse mapping ou RT-PCR, a l'aide d'un 
reactif de diagnostic selon Tune quelconque des revendications 5 a 8. 

12°) Produits de traduction, caracterises en ce qu'ils sont codes par 
une sequence nucleoli dique selon Tune quelconque des revendications 1 a 3. 

13°) Peptide, caracterise en ce qu'il est susceptible d'etre exprime a 
l'aide d'une sequence nucleotidique selectionnee dans le groupe constitue par les 
sequences SEQ ID NO: 1-24 selon Tune quelconque des revendications 1 a 3, selon les 
combinaisons offertes par Tusage des differents cadres de lecture possibles. 

14°) Peptide selon la revendication 13, caracterise en ce qu f il 
englobe les peptides derives comprenant entre 5 et 540 aminoacides. . 

15°) Peptide selon la revendication 13 ou la revendication 14, 
caracterise en ce qu'il est selectionne parmi les sequences SEQ ID NO :25-29 et la 
sequence SEQ ID NO :51. 

16°) Peptide selon Tune quelconque des revendications 13 a 15, 
caracterise en ce qu'il est obtenu a partir des sequences nucleiques selon l'une 
quelconque des revendications 1 a 3, dans lesquelles au moins un codon non-sens peut 



76 

etre remplace par vin codon codant pour l'un des aminoacides suivants : Phe (F), Leu 
(L), Ser (S), Tyr (Y), Cys (C), Trp (W), Gin (Q), Arg (R), Lys (K), Glu (E) ou Gly 
(G). 

17°) Anticorps, caracterise en ce qu'il est dirige contre l'un ou 
5 plusieurs des peptides selon Tune quelconque des revendications 13 a 16. 

18°) Precede de depistage immunologique differentiel de sequences 
retrovirales endogenes huxnaines de la famille HERV-7q normales ou pathologiques, 
caracterise en ce qu'il comprend la mise en contact d'un echantillon biologique avec 
un anticorps selon la revendication 17, la lecture du resultat etant revelee par un 
10 moyen approprie, notamment EI A, ELISA, RIA, fluorescence. 

19°) Precede d'identification et de detection de motifs retroviraux 
endogenes, anormalement exprimes dans le cadre de pathologies associees au cancer, 
ou de neuropathologies en particulier autoimmunes, au premier rang desquelles la 
sclerose en plaques, caracterise en ce qu ! il comprend 1'analyse comparee des sequences 
15 extraites d'un echantillon biologique avec les sequences selon Tune quelconque des 
revendications 12 a 16. 

18°) Application des sequences selon Tune quelconque des revendi- 
cations 1 a 6 ou 12 a 16 au diagnostic, au pronostic, a 1'evaluation de la susceptibilite 
genetique, a toutes maladies humaines induites, innees ou acquises en particulier 
20 celles a composantes cancereuses, autoimmunes et/ou a incidence neurologique, 
comme la sclerose en plaques, les syndromes asspcies et les maladies neurodegenera- 
tives ou intervient tout ou partie des sequences selon Tune quelcprique des revendica- / 
V tions 1 a 5 et des formes endogenes ou exogenes apparentees. 
\> 19°) Sequences nucleiques hybrides, caracterisees^en ce qu'elles 

25 comprennent des sequences ou motifs selon l'une quelconque Mes revendications 1 a 
5, combines. avec des sequences ou motifs d'origine endogene ou d'origine ou induits 
de maniere exogeiie;- 1 ' , ^ S ^ 

20°) Vecteur recombinant de clonage ou d'expression, caracterise en 
ce qu'il comprend une sequence nucleique selon Tune quelconque des revendications 
30 1 a 4. i 



de la RNAse H, 

- les regions gag etpol pourraient etre considerees comme jointives 
avec un passage de la region gag a la region pol par un decalage du cadre de lecture. 

La presente invention englobe les sequences appartenant a la famille 
HERV-7q telle que definie ci-dessus (presence de la sequence SEQ ID NO:l ou d'une 
sequence homologue ou presence a la fois des sequences SEQ ID NO. l et SEQ ID 
NO:2) et notamment les sequences SEQ ID NO:3-24 ; elle englobe egalement les 
sequences nucleiques complementaires et les sequences inverses complementaires des 
sequences precedentes ainsi que les fragments issus des regions codantes des 
sequences precedentes correspondant a un cadre glissant superieur ou egal a 14 
nucleotides ou leurs sequences complementaires. (SEQ ID NO :30-50) 

Ces differents fragments peuvent avantageusement §tre utilises 
comme amorces ou comme sondes ; ils s'hybrident specifiquement a une sequence de 
la famille HERV-7q. 

Parmi ces fragments, on peut citer, de preference les fragments 

suivants: 

- un fragment de 1 82 nucleotides repete deux fois, situe en amont du 
domaine gag aux positions 2502-261 1/2613-2865 de la SEQ ID NO:3 ; 

Amorces et sondes specifiaues de la region ear 

- une amorce GIF, sens, localisee dans la region amont du domaine 
gag de HERV-lq : 5' GGACCATAGAGGACACTCCAGGACTA 3' 
(SEQ ID NO:30); 

- une amorce G1R, anti-sens, localisee dans la region 3' terminale du 
domaine gag : 5' CCTCAGTCCTGCTGCTGGATCATCT 3' (SEQ ID NO :3 1) 

- le fragment de 1505 nt amplifie par le couple G1F-G1R est utilise 
afin de generer les sondes aptes a hybrider les differents produits d' amplification des 
PCR; 

- une amorce G2F, sens nichee : (SEQ ID NO :32) 

5 ' CCTCCAAGCAGTGGGAGGAAGAGAATT 3 ' 



FeuiMe avant^ctifJcatica 
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REVENDICATIONS 

1°) Fragment d'acide nucleique purifie, caracterise en ce qu'il 
comprend tout ou partie d'une sequence codant pour une sequence retrovirale endo- 
gene humaine, qui presente au moins des motifs retroviraux de type env t repondant a 
5 la sequence SEQ ID NO:l ou a une sequence presentant un niveau d'homologie avec 
ladite sequence SEQ ID NO:l superieur ou egal a 80% sur plus de 190 nucleotides ou 
superieur ou egal a 70% sur plus de 600 nucleotides pour les domaines de type env. 

2°) Fragment d'acide nucleique selon la revendication 1, caracterise 
en ce qu'il presente a la fois de motifs retroviraux correspondant a un domaine env et 
10 repondant a la sequence SEQ ID NO:l et des motifs retroviraux correspondant a un 
domaine gag et repondant a la sequence SEQ ID NO:2 ou a une sequence presentant 
un niveau d'homologie superieur ou egal a 80% sur plus de 190 nucleotides ou supe- 
rieur ou egal a 70% sur plus de 600 nucleotides pour les domaines de type env et un 
niveau d'homologie superieur ou egal a 90% sur plus de 700 nucleotides ou superieur 
15 ou egal a 70% sur plus de 1200 nucleotides pour les domaines de type gag, lesquels 
motifs ne presentent aucune insertion ou deletion superieure a 200 nucleotides. 

3°) Fragment d'acide nucleique, caracterise en ce qu'il comprend un 
segment d'une sequence selon la revendication 1 ou la revendication 2 et notamment 
les sequence SEQ ID NO:3-24, les sequences nucleiques complementaires et les 
20 sequences inverses complementaires des sequences precedentes ainsi que les 
fragments issus des regions codantes des sequences precedentes correspondant a un 
cadre glissant superieur ou egal a 14 nucleotides ou leurs sequences complementaires. 
\\ v \ 4°) Transcrits, caracterise en ce qu'ils sont generes a partir des 

sequences selon Tune quelconque des revendications 1 a 3. ^ c ^ // 

25 ^ 5°) Reactif de diagnostic pour la detection differentielle de 

sequences nucleiques endpgenes . humaines completes pu : partielles 5 ^presentant des 
motifs retroviraux," selectionnes parmi les sequences SEQ ID. NOil et/ou SEQ ID 
NO:2 5 caracterise en ce qu'il est selectionne- dans le groupe constitue par les sequences 



SEQ ID NO: 1-50, les sequences nucleiques complementaires et les sequences inverses 
complementaires des sequences precedentes, par les fragments nucleotidiques 
capables de definir ou d'identifier les sequences SEQ ID NO:l et/ou SEQ ID NO:2 et 



toute sequence flanquante ou les chevauchants ainsi que par les fragments issus des 
regions codantes des sequences SEQ ID NO: 1-24, correspondant a un cadre glissant 
superieur ou egal a 14 nucleotides ou leurs sequences complementaires, eventuelle- 
ment marquees avec un marqueur approprie. 
5 6°) Reactif selon la revendication 5, caracterise en ce qu'il est choisi 

dans les regions situees entre les nucleotides 3065 et 4390 et les nucleotides 6965 et 
9550 de la SEQ ID NO:3. 

7°) Reactif selon la revendication 5, caracterise en ce qu'il est selec- 
tionne parmi les sequences SEQ ID NO:30-50 et en ce qu'il est apte a etre utilise 
10 comme amorce. 

8°) Reactif selon la revendication 5, caracterise en ce qu'il est selec- 
tionne parmi les sequences suivantes : 

- un fragment de 1505 nt amplifie par le couple d'amorces SEQ ID 
NO:30 et SEQ ID NO:3 1 (amorces GIF et G1R), 
*5 - un fragment de 2529 nt amplifie par le couple d'amorces SEQ ID 

NO:38 et SEQ ID NO:39 (amorces E1F et E1R) et en ce qu'il est apte a etre utilise 
comme sonde. 

9°) Procede de detection rapide et differentiel des sequences 
nucleiques retrovirales endogenes de type env ou env et gag, de leurs variants 
20 normaux ou pathologiques, par hybridation et/ou amplification genique, realise a partir 
d'un echantillon biologique, lequel procede est caracterise en ce qu'il comprend : 

(a) une etape dans laquelle Ton met en contact un echantillon biolo- 
gique a analyser avec au moins une sonde selon la revendication 5, la revendication 6 
ou la revendication 8 et 
25 (t>) une etape dans laquelle on detecte par tout moyen approprie le ou 

les produits resultants de V interaction sequence nucleotidique-sonde. 

10°) Procede de detection selon la revendication 9, caracterise en ce 

qu'il comprend : 

* prealablement a l'etape (a) : 

!0 • une etape de preparation du tissu ou du liquide biologique 

concerne, 
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'^"delineation 
. . . une etape d f extraction de Tacide nucleique a detecter, et 

. au moins un cycle d' amplification genique mis en oeuvre a l'aide 

d'au moins un reactif selon Tune quelconque des revendications 5 a 7 et 

* posterieurement a l'etape (b) : 

. une etape de comparaison des sequences nucleiques obtenues dans 
ledit echantillon biologique avec les sequences retrovirales endogenes humaines selon 
Tune quelconque des revendications 1 a 3, par tout moyen approprie et notamment par 
sequen9age, Southern-blot, coupure de restriction, SSCP ou toute autre methode 
permettant d' identifier une insertion ou vine deletion ou encore une simple mutation 
entre les differentes sequences comparees. 

11°) Procede de detection des transcrits selon la revendication 4, 
caracterise en ce qu'il comprend : 

- le prelevement des ARN messagers provenant de tissus temoins et 
de tissus preleve chez des patients et 

- r analyse qualitative et/ou quantitative desdits ARNm, par hybri- 
dation in situ, par dot-blot, Northern-blot, RNAse mapping ou RT-PCR, a l'aide d'un 
reactif de diagnostic selon Tune quelconque des revendications 5 a 8. 

12°) Produits de traduction, caracterises en ce qu'ils sont codes par 
une sequence nucleotidique selon Tune quelconque des revendications 1 a 3. 

13°) Peptide, caracterise en ce qu'il est susceptible d'etre expriirie a 
l'aide d' une sequence nucleotidique selectiohnee dans le groupe constitue par les 
sequences SEQ ID NO: 1-24 selon i'une quelconque des revendications 1 a 3; selon les / 
combinaisbns offertes par F usage des differents cadres de lecture possibles. // 
\ 14°) Peptide selon la revendication 13, caracterise Vn ce/M'il 

engldbe les peptides derives comprenant entre 5 et 540 aminoacides. v> " 

> , 15°) Peptide selon la revendication 13 ou la reyendication 14, 
caracterise en ce qii'il est selectionne parmi les sequences JSEQ^ ID NO :25-29 et la 
sequence SEQ ID NO :51. _ , - 

16°) Peptide selon l'une quelconque des revendications 13 a 15, 
caracterise en ce qu'il est obtenu a partir des sequences nucleiques selon l'une 
quelconque des revendications 1 a 3, dans lesquelles au moins un codon non-sens peut 
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etre remplace par un codon codant pour Tun des aminoacides suivants : Phe (F), Leu 
(L), Ser (S), Tyr (Y), Cys (C), Tip (W), Gin (Q), Arg (R), Lys (K), Glu (E) ou Gly 
(G). 

17°) Anticorps, caracterise en ce qu'il est dirige contre Tun ou 
5 plusieurs des peptides selon l'une quelconque des revendications 13 a 16. 

18°) Precede de depistage immunologique differentiel de sequences 
retrovirales endogenes humaines de la famille HERV-7q normales ou pathologiques, 
caracterise en ce qu'il comprend la mise en contact d'un echantillon biologique avec 
un anticorps selon la revendication 17, la lecture du resultat etant revelee par un 
10 moyen approprie, notamment ELA, ELISA, RIA, fluorescence. 

19°) Precede d'identification et de detection de motifs retroviraux 
endogenes, anormalement exprimes dans le cadre de pathologies associees au cancer, 
ou de neuropathologies en particulier autoimmunes, au premier rang desquelles la 
sclerose en plaques, caracterise en ce qu'il comprend Tanalyse comparee des sequences 
15 extraites d'un echantillon biologique avec les sequences selon l'une quelconque des 
revendications 12 a 16. 

20°) Application des sequences selon l'une quelconque des revendi- 
cations 1 a 6 ou 12 a 16 au diagnostic, au pronostic, a revaluation de la susceptibilite 
genetique, a toutes maladies humaines induites, innees ou acquises en particulier 
20 celles a composantes cancereuses, autoimmunes et/ou a incidence neurologique, 
comme la sclerose en plaques, les syndromes associes et les maladies neurodegenera- 
tives ou intervient tout ou partie des sequences selon Tune quelconque des revendica- 
tions 1 a 5 et des formes endogenes ou exogenes apparentees. 

21°) Sequences nucleiques hybrides, caracterisees en ce qu'elles 
25 comprennent des sequences ou motifs selon Tune quelconque des revendications 1 k 
5, combines avec des sequences ou motifs d'origine endogene ou d'origine ou induits 
de maniere exogene. 

22°) Vecteur recombinant de clonage ou d ? expression, caracterise en 
ce qu'il comprend une sequence nucleique selon l'une quelconque des revendications 
30 1 a 4. 
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REVENDICATIONS 

1°) Fragment d r acide nucleique purifie, caracterise en ce qu'il est 
constitue par une sequence codant pour une sequence retrovirale endogene humaine, 
qui presente au moins des motifs retro viraux de type env, repondant a la sequence 
5 SEQ ID NO:l ou a une sequence presentant un niveau d'homologie avec ladite 
sequence SEQ ID NO: l superieur ou egal a 80% sur plus de 190 nucleotides ou supe- 
rieur ou egal a 70% sur plus de 600 nucleotides pour les domaines de type env. 

2°) Fragment d'acide nucleique selon la revendication 1, caracterise 
en ce qu'il presente a la fois de motifs retroviraux correspondant a un domaine env et 
10 repondant a la sequence SEQ ID NO:l et des motifs retroviraux correspondant a un 
domaine gag et repondant a la sequence SEQ ID NO:2 ou a une sequence presentant 
un niveau d'homologie superieur ou egal a 80% sur plus de 190 nucleotides ou supe- 
rieur ou egal a 70% sur plus de 600 nucleotides pour les domaines de type env et un 
niveau d'homologie superieur ou egal a 90% sur plus de 700 nucleotides ou superieur 
15 ou egal a 70% sur plus de 1200 nucleotides pour les domaines de type gag, lesquels 
motifs ne presentent aucune insertion ou deletion superieure a 200 nucleotides. 

3°) Fragment d'acide nucleique, caracterise en ce qu'il comprend un 
segment d'une sequence selon la revendication 1 ou la revendication 2 et notamment 
les sequence SEQ ID NO:3-24, les sequences nucleiques complementaires et les 
20 sequences inverses complementaires des sequences precedentes ainsi que les 
fragments issus des regions codantes des sequences precedentes correspondant a un 
cadre glissant superieur ou egal a 14 nucleotides ou leurs sequences complementaires. 

4°) Transcrits, caracterise en ce qu'ils sont-generes a partir des , 
sequences selon Tune quelconque des revendications 1 a 3. ^ Vx > v / 

25 ; . 5°) Reactif de diagnostic pour la detection differehtiellevde 

; y • ,C/ ^ // ' 

sequences nucleiques endogenes humaines completes ou partieUes;' presentant des 



motifs retroviraux, selectiorines parmi les sequences SEQCID NO: 1 et/ou SEQ ID 
NO:2, caracterise; en ce qu'il est selectionne dans le groupe constitue*par les sequences 
SEQ ID NO: 1-50, les sequences nucleiques complementaires et les sequences inverses 
30 complementaires des sequences precedentes, par les fragments nucleotidiques 
capables de definir ou d'identifier les sequences SEQ ID NO:l et/oufSEQ ID NO:2 et 
toute sequence flanquante ou les chevauchants ainsi que par les fragments issus des 
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regions codantes des sequences SEQ ID NO: 1-24, correspondent a un cadre glissant 
superieur ou egal a 14 nucleotides ou leurs sequences complementaires, eventuelle- 
ment marquees avec un marqueur approprie. 

6°) Reactif selon la revendication 5, caracterise en ce qu'il est choisi 
dans les regions situees entre les nucleotides 3065 et 4390 et les nucleotides 6965 et 
9550 de la SEQ ID NO:3. 

7°) Reactif selon la revendication 5, caracterise en ce qu'il est selec- 
tions parmi les sequences SEQ ID NO:30-50 et en ce qu'il est apte a etre utilise 
comme amorce. 

8°) Reactif selon la revendication 5, caracterise en ce qu'il est selec- 
tionne parmi les sequences suivantes : 

- un fragment de 1505 nt amplifie par le couple d'amorces SEQ ID 
NO:30 et SEQ ID NO:3 1 (amorces GIF et G1R), 

- un fragment de 2529 nt amplifie par le couple d'amorces SEQ ID 
NO:38 et SEQ ID NO:39 (amorces E1F et E1R) et en ce qu'il est apte a etre utilise 
comme sonde. 

9°) Procede de detection rapide et differentiel des sequences 
nucleiques retrovirales endogenes de type env ou env et gag, de leurs variants 
normaux ou pathologiques, par hybridation et/ou amplification genique, realise a 
partir d'un echantillon biologique, lequel procede est caracterise en ce qu'il 
comprend : 

(a) une etape dans laquelle Fon met en contact un echantillon biolo- 
gique a analyser avec au moins une sonde selon la revendication 5, la revendication 6 
ou la revendication 8 et 

(b) une etape dans laquelle on detecte par tout moyen approprie le 
ou les produits resultants de F interaction sequence nucleotidique-sonde. 

10°) Procede de detection selon la revendication 9, caracterise en ce 

qu'il comprend : 

* prealablement a Fetape (a) : 

. une etape de preparation du tissu ou du liquide biologique 

concerne, 

. une etape d'extraction de Facide nucleique a detecter, et 




. au moins un cycle d'amplification genique mis en oeuvre a l'aide 
d'au moins un reactif selon Tune quelconque des revendications 5 a 7 et 
* posterieurement a l'etape (b) : 

. une etape de comparaison des sequences nucleiques obtenues dans 
5 ledit echantillon biologique avec les sequences retrovirales endogenes humaines selon 
Tune quelconque des revendications 1 a 3, par tout moyen approprie et notamment par 
sequence, Southern-blot, coupure de restriction, SSCP ou toute autre methode 
permettant d' identifier une insertion ou une deletion ou encore une simple mutation 
entre les differentes sequences comparees. 
10 11°) Procede de detection des transcrits selon la revendication 4, 

caracterise en ce qu'il comprend : 

- le prelevement des ARN messagers provenant de tissus temoins et 
de tissus preleve chez des patients et 

- T analyse qualitative et/ou quantitative desdits ARNm, par hybri- 
15 dation in situ, par dot-blot, Northern-blot, RNAse mapping ou RT-PCR, a l'aide d'un 

reactif de diagnostic selon Tune quelconque des revendications 5 a 8. 

12°) Produits de traduction, caracterises en ce qu'ils sont codes par 
une sequence nucleotidique selon Tune quelconque des revendications 1 a 3. 

13°) Peptide, caracterise en ce qu'il est susceptible d'etre exprime a 
20 l'aide d'une sequence nucleotidique selectiorinee dans le groupe constitue par les 
sequences SEQ ID NO: 1-24 selon Tune quelconque des revendications 1 a 3, selon les 
combinaisons offertes par l'usage des differents cadres de lecture possibles. 

14°) Peptide selon la revendication 13, caracterise en ce qu'il est y 
A selectionrie parmi les sequences SEQ ID NO :25-29 et la sequence SEQ ID NO :51. // 
25 \\ 15°) Peptide selon la revendication 13 ou la^reyendication>44, 

caracterise en ce qu'il est obtenu a partir des sequences: \nuclj£iques selon Tune 
quelconque des revendications 1 a 3, dans lesquelles au moins lin codon^noh-sens peut 
etre remplace par un codon codant pour Tun des aminoacides^suivants : Phe (F), Leu 
(L), Ser (S), Tyr (Y), Cys (C), Trp (W), Gin (Q), • Arg :(R)?Lys (K), Glu (E) ou Gly 
30 (G). 

16°) Anticorps, caracterise en ce qu'il est dirige contre l'un ou 
plusieurs des peptides selon Tune quelconque des revendications 13 a 15. 
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17°) Precede de depistage immunologique differentiel de sequences 
retroviral endogenes humaines de la famille HERV-7q normales ou pathologiques, 
caracterise en ce qu'il comprend la mise en contact d'un echantillon biologique avec 
un anticorps selon la revendication 16, la lecture du resultat etant revelee par un 
5 moyen approprie, notamment EIA, ELISA, RIA, fluorescence. 

18°) Procede ^identification et de detection de motifs retroviraux 
endogenes, anormalement exprimes dans le cadre de pathologies associees au cancer, 
ou de neuropathologies en particulier autoimmunes, au premier rang desquelles la 
sclerose en plaques, caracterise en ce qu'il comprend l'analyse comparee des 
10 sequences extraites d f un echantillon biologique avec les sequences selon 1'une 
quelconque des revendications 12 a 15. 

19°) Application des sequences selon Tune quelconque des revendi- 
cations 1 a 6 ou 12 a 15 au diagnostic, au pronostic, a 1'evaluation de la susceptibilite 
genetique, a toutes maladies humaines induites, innees ou acquises en particulier 
15 celles a composantes cancereuses, autoimmunes et/ou a incidence neurologique, 
comme la sclerose en plaques, les syndromes associes et les maladies neurodegenera- 
tives ou intervient tout ou partie des sequences selon Tune quelconque des revendica- 
tions 1 a 5 et des formes endogenes ou exogenes apparentees. 

20°) Sequences nucleiques hybrides, caracterisees en ce qu'elles 
20 comprennent des sequences ou motifs selon Tune quelconque des revendications 1 a 
5, combines avec des sequences ou motifs d'origine endogene ou d'origine ou induits 
de maniere exogene. 

21°) Vecteur recombinant de clonage ou d'expression, caracterise en 
ce qu'il comprend une sequence nucleique selon 1'une quelconque des revendications 
25 1 a 4. 
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CCCTGGGGCGGGCTTCCTTTCTGGGATGAGGGCAAAACGCCTGGAGATACAGCAATTATCTTGCA ACTGAG 71 

AGACAGGACTAGCTGGATTTCCTAGGCCGACTAAGAATCCCTAAGCCTAGCTGGGAAGGTGACCACGTCCAC 14 3 

CTTTAAACACGGGGCTTGCAACTTAGCTCACACCTGACCAATCAGAGAGCTCACTAAAATGCTAATTAGGCA 215 

AAGACAGGAGGTAAAGAAATAGCCAATCATCTATTGCCTGAGAGCACAGCAGGAGGGACAACAATCGGGATA 287 

TAAACCCAGGCATTCGAGCTGGCAACAGCAGCCCCCCTTTGGGTCCCTTCCCTTTGTATGGGAGCTGTTTTC 35 9 region 

ATGCTATTTCACTCTATTAAATCTTGCAACTGCACTCTTCTGGTCCATGTTTCTTACGGCTCGAGCTGAGCT 4 31 repetee 

TTTGCTCACCGTCCACCACTGCTGTTTGCCACCACCGCAGACCTGCCGCTGACTCCCATCCCTCTGGATCCT 503 Rl 

GCAGGGTGTCCGCTGTGCTCCTGATCCAGCGAGGCGCCCATTGCCGCTCCCAATTGGGCTAAAGGCTTGCCA 575 

TTGTTCCTGCACGGCTAAGTGCCTGGGTTTGTTCTAATTGAGCTGAACACTAGTCACTGGGTTCCATGGTTC 64 7 

TCTTCTGTGACCCACGGCTTCTAATAGAACTATAACACTTACCACATGGCCCAAGATTCCATTCCTTGGAAT 719 

CCGTGAGGCCAAGAACTCCAGGTCAGAGAATACGAGGCTTGCCACCATCTTGGAAGC GGCCTGCTACCATCT 7 91 

TGGAAGTGGTTCACCACCATGTTGGGAGCTCTGTGAGCAAGGACCCCCCGGTAACATTTTGGCAACCACGAA 863 

CGGACATCCAAAGTGGTGAGTAATATTGGACCACTTTCACTTGCTATTCTGTCCTATCCTTCCTTAGAATTG 935 

GAGGAAAATACCGGGCACTTGTCGGCCAGTTAAAAACGATTAGTGTGGCCACCGGACTTAAGACTCAGGTGT 1007 

GAGGCTATCTGGGGAAGGGCTTTCTAACAACCCCCAACCCTTCTGGGTTGGGGACTTGGTTTGCCTCAAGCC 107 9 

AGCTTCCACTTTCAGTTTTCTTGGGGAAGCCGAGGGCCGACTAGAGGCAGAAAGCTGTCGTCCTGAACTCCC 1151 

GGCAGTAGCCGGTTGAGATCATGGTGTAGCCAGAAGTCTCAACAGTCGCCCATGCATGCACCCCTATCTTTC 122 3 

CTTCTGACCCATACCTCCTGGGTCCCAACCACAACTTTCTTCAAAGTGTAGCCCCAAAATTCTCCTTACCTC 1 2 95 \ 

TGAATATACTTCCTCTGATCCCTGCCTCCTAGGTACTATTGGTTCAGACTTCCATTTCCTCTAGCAAGTTGT 1367 

ATCTCCAAAGGGATCTAAGGAAGCTCTGCGCTGCGTCCTTAGGCACCTAGGCTATAACCCAGGGAGTCTTAT 14 39 

CCCTGGTGTCCCTCCCAATTTAGGCATACAGCTCTTGACATGGGCAGTTATGTAGGACCCACTCCCCACCAC 1511 

CCTTGCCAGGGCCCCAAGTTTGTAAATGGCTGAGGGAAAAGAGAGACAGAGGAGAGAGAGAGAAATGGAGGA 1583 

GAAAGAGAGAGAGAC AGAGAGGAGAGAGAGAC AGTGAGAGAG AC AGAAG AGAGAGAGAGAC AAAGAGGAG AG 1655 

AGAGAGAGTCAAAGAGAGAAAGAAAGAGAAAGAAAT AGTAAAAAACAGTGTGCCCTATTCCTTTAAAAGCCA 1727 

GGGTAAATTTAAAACCTGTACTTGATAATTGAAGGTCTTCTCTGTGACCCTATAGCACTCCAATCCACTTTG 17 99 

TGGTCAGTGTAAATAAGAGCATAGGCCGAAAGCACTGAGGCCATTGACAACCCGTAGCTTCCCTATCAAAAA 1871 

TCCTTAACCCAGTAACCCGCAGATGGACCAAATGCATTCAGTCGGTAGCGCAACTGCTTTGCTAAAAGTAGA 194 3 

AAAGTAACTTTTAGAGGAAACCTCATTGTGAGCACACCTCACCTGTTCAGAATTATTCTAATAAAAAAAGCA 2015 

AAAAGGTAGCTTACTAACTCAAAAATCTTAAAGTATGGGGCTATTCTGTTAGAAAAAGGTAATGTAACTCCA 2 087 

ACCACTGATAATTCCCTTAACCCAGCAGATTTCCTAACGGGATTTAAATCTTAATTACCATACAAAGGTCCG 2159 

AC C AG AC C T AGGC GG AACTC C C T T C AGG AC AGG AC G AT AG ATGGTTC C TC C C AG GT G ATT G AGG AAAAAAAC 2231 

CACAATGGGTATTCAGTAATTGATACGGGGACTCTTGTGGAAGCAGAGTTAGAAAAATTGCCTAATAACTGG 2 303 

TCTCCTCAAACGTGTGAGCTGTTTGCACTCAGCCAAGCCTTAAAGTACTTACAGAATCAAAAGACT ATCTC A 2 375 

ATCCTGATTCAAAAGGTTAGCTACACCCTCTCTGTAATGCATTTGCATAAGAACTTGTTTATGGGAATGCAT 2 4 4 7 

CTTGATGGGGCAGCTGGGTTGTTATAAAATAGGAACCCAGCCCAGCTCTAGGAC TCACCCCTGAGCGCAAAG ' 2519 

GCAATGTTGGGCATGCTGGTAAAGGACCACTAGAATCCAGCAGCCCAGACCCCTTTCTTTGTGGTCAAGAAA 2591 regions 

GGCGGGAAAAGGGGTGCAGGACTGCTACATCGGTAAGCATAACTAATCCGATAAACAGAGGTCCATGGGTGG , 2 663 repetees 

TTACGCACCCTGGAAAGGAA C TCACCCCTGAGCACAAAGGCAATGTTGGGCACGCTGGTAAAGGACCACTAG 27 35 en tandem 

AA T C C AGC AGC C T GG AC CCCTTTCTTTGT GGTC AAG AGAGGC AGG AAAAC AGGT GC AG G AC T GC AAC AT C AG 2807 R2 

TGAGCATAACTAATTCGATAAGCAGAGGTCCATGGGTGGTGATGCACCCTGGAAAGAA TAAGCATTAGGACC ^2879 

ATAGAGGACACTCCAGGACTAAAGCTCATCGGAAAATGACTAGGGTTGCTGGCATCCCTATGTTCTTTTTTC 2 951 

AG AT GGG AAAC GTT C C C C GC AAG AC AAAAAC GC C C C T AAG AC GT AT TC T GG AG AAT TGGG AC C AAT T T G AC C 3023 

CTCAGACACTAAGAAAGAAACGACTTATATTCTTCTGCAGTGCCG CCrGGCACrCCrGAGGGAAGrArAAAT 3095 

TA TAA CACCA TCTTACAGCTA GACC TCTT TTG TAGAAAAGGCAAA TCCAGTGAAGTGCCA TAAGTA CAAA C T 3167 

TTCTTTTCA TTAAGAGACAACTCACAATTA TGTAAAAAG TGTGATTTA TGCCCTACAGGAAGCCTTCAGAGT 323 9 

CTACCTCCCTA TCCCAGCA TCCCCGACTCCTTCCCCAACTAA TAAGGACCCCCCTTCAACCCAAA TGGTCCA 3311 

AAAGGAGA TAGACAAAAGGGTAAACAGTGAACCAAAGAGTGCCAA TA TTCCCCAA TTA TGACCCCTCCAAGC 3383 

AGTGGGAGGAAGAGAATTCGGCCCAGCCAGAGTGCA TGTGCCTTTTTCTCTCCCAGACTTAAAGCAAA TAAA 3455 

AACAGACTTAGGTAAA TTCTCAGA TAACCCTGA TGGCTA TA TTGA TGTTTTACAAGGGTTAGGACAATTCTT 3527 

TGATCTGACATGGAGAGA TA TAA TG TCA C TGC TAAA TCAGA CA C TAACCCCAAA TGAGAGAAGTGC CA CCA T , 3599 y 

AACTGCAGCCTGAGAGTTTGGCGA TCTCTGGTA TCTCAGTCAGGTCAA TGA TAGGA TGACAACAGAGGAAAG 3 671 , doma±ne 

AGAA TGA T TCCCCA CAGGCCAGCAGGCAG TTCCCAGTC TAGACCCTCA TTGGGA CA CAGAA TCA GAA CA TGG 374 3 > gag/ / 

AGA TTGGTGCTGCAGACA T TTGC TAA C T TG TG TGCTA GAAGGACTAAGGAAAA C TAGGAAGAAGTC TA TGAA 3815 // 

, T TACTCAA TGA TGTCCACCA TAA CA CA GGG A A GGGAA GAAAA TCC TACTGCCTTTC TGG A GA G ACT A A GGG A 3 8 87 :> v 

GGCATTGAGGAAGCGTGCCTCTCTGTCACCTGACTCTTCTGAAGGCCAACTAA TCTTAAAGCG TAAGTTTA T ,3959/ 
CA C TCAGTCAG CTGCAGA CA TTAGAAAAAAA CTTCAAAAGTC TGCCG TAGGCCCGGAGCAAAACTTAGAAA C y/ vn ,4.0 3 1 / / 

CCTA T TGAA C T TGGCAACC TCGG TTTTT TA TAA TAG A GA TCA GGAGGAGCA GGCGGAACAGGA CAAA CGGGA ^ \ "410 3 ' / /■ 

TTAAAAAAAAGGCCACCGCT TTA G TCA TGA CCC TCAGGCAAG TGGACTTTGGAGGC TC TGGAAAAGGGAAAA 417 5 // 

GCTGGGCAAA TTGAATGCCTAA TAGGGCTTGCTTCCAGTGCGGTCTACAAGGACACTTTAAAAAAGATTGTC ^ 4 2 4 l/ /t / 

CAAGTAGAAGTAAGCCGCCCCCTCGTCCATGCCCCTTATTTCAAGGGAATCACTGGAAGGCCCACTGCCCCA 4319/^ 

GGGGACAAAGGTCCTCTGAGTCAGAAGCCACTAACCAGATGATCCAGCAGCAGGACTGAGGGTGCCTGGGGC „4'3,91 
AAGCGCCATCCCATGCCATCACCCTCACAGAGCCCTGGGTATGCTTGACCATTGAGGGCCAGGAGGTTGTCT ^"A '4 63 
CCTGGACACTGGTGCGGTCTTCTTAGTCTTACTCTTCTGTCCCGGACAACTGTCCTCCAGATCTGTCACTAT ^/-^ 4 5 35 

CTGAGGGGGTCCTAAGACGGGCAGTCACTAGATACTTCTCCCAGCCACTAAGTTATGACTGGGGAGCT.TTAT ^ 4 607 

TCTTTTCACATGCTTTTCTAATTATGCTTGAAAGCCCCACTACCTTGTTAGGGAGAGACATTCTAGCAAAAG 4 67 9 

CAGGGGCCATTATACACCTGAACATAGGAGAAGGAACACCCGTTTGTTGTCCCCTGCTTGAGGAAGGAATTA 4 751 

ATCCTGAAGTCTGGGCAACAGAAGGACAATATGGACGAGCAAAGAATGCCCGTCCTGTTCAAGTTAAACTAA 4 82 3 

AGGATTCCACCTCCTTTCCCTACCAAAGGCAGTACCCCCTCAGACCCAAGGCCCAACAAGGACTCCAAAAGA 4 895 

TTGTTAAGGACCTAAAAGCCCAAGGCCTAGTAAAACCATGCAGTAACCCCTGCAGTACTCCAATTTTAGGAG 4967 

TACAGAAACCCAACAGACAGTGGAGGTTAGTGCAAGATCTCAGGATTATCAATGAGGCTGTTGTTCCTCTAT 5039 domaine 

AGCCAGCTGTACCTAGCCCTTATACTCTGCTTTCCCAAATACCAGAGGAAGCAGAGTGGTTTACAGTCCTGG 5111 pol 

ACCTTCAGGATGCCTTCTTCTGCATCCCTGTACATCCTGACTCTCAATTCTTGTTTGCCTTTGAAGATACTT 5183 



FIGURE 1.1 
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AAGCAGATAGTCAGGGCCTGTGAAGTGTGCCAGAGAAATAATCCCCTGCC TTATCGCCAAGCTCrTT 

GAACAAAG AACAGGCCATTACCCTGGAGAAGACTGGCAACTGATTTTACCCACAAGCCCAAA CCTCA 

TTCAGTA TCTACTAGTCT GGGTAGA TACTTTCA CGGGTTGGGCAGAGGCC T TCCCC TG TAGGACA GAAAAGG 

CCCAAGAGGTAATAAAGGCACTAGTTCATGAAATAATTCCCAGATTCGGACTTCCCCGAGGCTTA CAGAGTG 
ACAATAG CCCTGCTTTCCAGGCCACAGTAACCCAGGGAGTATCCCAGGCGTTAGGTATACGATAT CACTTAC 
ACTGCGCC TGAAGGCCACAGTCCTCAGGGAAGGTCGAGAAAATGAATGAAACACTCAAAGGACATCTAAA AA 
AGCAAACCCAGGAAAC CCACCTCACATGGCCTGCTCTGTTGCCTATAGCCTTAAAAAGAATCTGCAACTTTC 

cccaaaa agcaggacttagcccatacgaaatgctgtatggaaggcccttcataaccaatgaccttgtgcYtg 

ACCCAAGACAGCCAA CTTAGTTGCAGACATCACCTCCTTAGCCAAATATCAACAAGTTCTTAAAA CATTACA 
AGGAACC TATCCCTGAGAAGAGGGAAAAGAACTATTCCACCCTTGTGACA TGGTATTAGTCAAGTCrrrrrr 



CCCTCCTGAGGAAATCTCAGCTGCACAACCTCTACTACGCCCCAATTCAGCAGGAAGCAGTTAGAGCGGTC 
TCGGCCAACCTCCCCAACAGCACTTAGGTTTTCCTGTTGAGATGGGGG ACTGAGAG ACAGGACTAGCTGGAT 
TTCCTAGGCTGACTAAG A ATCCCTAAGCCTAGCTGGGAAGGTGACCACATCCACC T TTAAACACGGGGCTTG 
CAACTTAGCTCACACCTG A CCAATCAGAGAGCTCACTAAAATGCTAATT AGGCAAAGA CAGGAaaTAAAr,AA 
ATAGCCAATCATCTATT G CCTGAGAGCACAGCAGGAGGGACAATGATCGGGATATAA ACCC AAGTCTTCGAG 
CCGGCA ACGGCAACCCCCTTTGGGTCCCCTCCCTTTGTATGGGAGCTCTGTT TTCATGCTATTTCACTCT 
TAAATCTTG C AACTGCACTCTTCTGGTCCATGTTTCTTACGGCTTG AGCTGAG CTTTfnrTrnrrAT, 
ACTGCTGTTTGCCGCCA CCGCAGACCCGCCGCTGACTCCCATCCCTCTGGATCA TGCAGGGTGTCCC 
CTCCTGAT C CAGCGAGGCACCCATTGCCGCTCCCAATCGGGCTAA AGGCTTGCCA TTGTTCCTGCATG 
AGTGCCT GGGTTCATCCTAATTGAGCTGAACACTAGTCACTGGGTTCCATGGTT CTCTTCTGTGACCC 
CTTCTAA TAGAGCTATAACACTCACCGCATGGCCCAAGGTTCCATTCCTTGAATC CATAAGGCCAAGA 
CAGGTCAGAGAACACGAG GCTTGCCACCATCTTGGGAGC TCTGTGAGCAAar,Arrrrr n Ar-T aa n B n R 

TGAGGGTGCAAATGCATGGGCCACTAATGGTAGAGCAAGAAAACAGAAGGGCCCTGGTTCCTCGAAGGCA 
AGTGAGCTGAAATGCCTGCCCTGGATGTCCTATTCCTAGGTGTTTTTCTGCCTGAAGCAGATTAAACCCT 
GTTCACTTCTCCAAGTAGGGCTTCTATTACAGCCCAAATCAATCCCCACCCCAGATGACAT 
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ACTGAGAGACAGGACTAGCTGGATTTCCTAGGCCGACTAAGAATCCCTAAGCCTAGCTGGGAAGGTGACC 
ACTGAGAGACAGGACTAGCTGGATTTCCTAGGCTGACTAAGAATCCC^ 

ACGTCCACCTTTAAACACGGGGCTTGCAACTTAGCTCACACCTGACCAATCAGAGAGCTCACTAAAATGC 
ACATCCACCTTTAAACACGGGGCTTGCAACTTAGCTCACACCTGACCAATCAGAGA 

T AAT TAGGC AAAG AC AGG AGGT AAAG AAAT AGC C AATC ATC TAT T GC CT GAG AGC AC AGC AGG AGGG AC A 

TAATT AG GC AAAG AC AGG AGGT AAAG AAAT AGC C AATC AT C T AT T GC C T G AG AGC AC AGC AGG AGGG AC A 
ACAATCGGGATATAAACCCAGGCATTCGAGCTGGCAACAGCAGCCCCCCTTTGGGTCCCTTCCCTTTGTA 

ATGATCGGGATATAAACCCAAGTCTTCGAGCCGGCAACGGCAACCCCC-TTTGGGTCCCC 

TGGGAGCT — GTTTTCATGCTATTTCACTCTATTAAATCTTGCAACTGCACTCTTCTGGTCCATGTTTCT 

TGGGAGCTCTGTTTTCATGCTATTTCACTCTATTAAATCTTGCAACT^ACTCT^ 

TACGGCTCGAGCTGAGCTTTTGCTCACCGTCCACCACTGCTGTTTGCCACCACCGCAGACCTGCCGCTGA 
TACGGCTTGAGCTGAGCTTTCGCTCGCCATCCACCACTGCTGTTTGCCGCCACC^ 

C TC C C AT CC C T C TGG AT C C T GC AGGGT GTC C GC TGTGCTCCT GAT C C AGC G AGGCGC C C ATT GC C GC T C C 
CTCCCATCCCTCTGGATCATGCAGGGTGTCCGCTGTGCTCCTGATCCAG^ 

CAATTGGGCTAAAGGCTTGCCATTGTTCCTGCACGGCTAAGTGCCTGGGTTTGTTCTAATTGAGCTGAAC 
CAATCGGGCTAAAGGCTTGCCATTGTTCCTGCATGGCTAAGTGCCTGGGT^ 

ACTAGTCACTGGGTTCCATGGTTCTCTTCTGTGACCCACGGCTTCTAATAGAACTATAACACTTACCACA 

AC T AGT C AC TGGGTTCC ATGGTT C TCT T C T GT G AC C C AC AGCTT C T AAT AG AGC T AT AAC AC T C AC C GC A 
TGGCCCAAGATTCCATTCCTTGGAATCCGTGAGGCCAAGAACTCCAGGTCAGAGAATACGAGGCTTGCCA 

TGGCCCAAGGTTCCATTCCTTG-AATCCATAAGGCCAAGAACCCCAGGTCAGAGAACACGAGG^ 
CCATCTTGGAAGC 



CCATCTTGGGAGC 
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IPMALPYHIFLFTVLLPSFTLTAPPPCRCMTSSSPYQEFLWRMQRPGNIDAPSYRSLSKG 
TPTFTAHTHMPRNCYHSATLCMHANTHYWTGKMINPSCPGGLGVTVCWTYFTQTGMSDGG 
GVQDQAREKHVKEVISQLTRVHGTSSPYKGLDLSKLHETLRTHTRLVSLFNTTLTGLHEV 
SAQNPTNCWICLPLNFRPYVSIPVPEQWNNFSTEINTTSVLVGPLVSNLEITHTSNLTCV 
KFSNTTYTTNSQCIRWVTPPTQIVCLPSGIFFVCGTSAYRCLNGSSESMCFLSFLVPPMT 
IYTEQDLYSYVISKPRNECRVPILPFVIGAGVLGALGTGIGGITTSTQFYYKLSQELNGDM 
ERVADSLVTLQDQIiNSLAAVVLQNRRA^ 

AEELRNTGFWGLLSQWMFWILPFL^ 

RRPLDRPASPRSDV NDIKGTPPEEISAAQPLLRPNSAGSS " ~ 
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2) 
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5) 
6) 
7) 



NSLAAWLQNRRALDLLTAESGGTFLFLEEKC 
NSLAAWLQNRRALDLLTAERGGTCLFLGEEC 
DSLAAVTLQNHQGLDLLTAEKGGLCYFLGEDC 
DSLAAVTLQNHQGLDLLIAEKGGLCTFLGEEC 
DSLAAVTLQNCRGLDLLTAEKGGHYTFLGEEC 

LQNRRGLDLLFLKEGGLC 
DSLAKVVLQNRRGLDLLTAEQGGICLALQEKC 



FIGURE 5 



TS FVEKANGVKCHKYKLS FHXETTHNYVKS VI YALQE AFRVYLP I LPAS PT P S PTNKD P P S TQMVQKE I D KRVNS 

EPKSANIPQLXPLQAVGGREFGPARVHVPFSLPDLKQIKTDLGKFSDNPDGYIDVLQGLGQFFDLTWRDIMSLLN 

QTLTPNERSATITAAXEFGDLWYLSQVNDRMTTEEREXFPTGQQAVPSL^ 

RKTRKKSMNYSMMSTITQGREENPTAFLERLRE 

EQ^ETLLNLATSVFYNRDQEEQAEQDK^ 

RLSKXKXAAPS SMPLI SRESLEGPLPQGTKVLXVRSHXPD / S SSRT .-'/,' V 
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CCTGGCACTCCTGAGGGAAGTATAAATTATAACACCATCTTACAGCTAGACCTCTTTTGTAGAAAAGGCA 
CCTGGC-CTCCTGAGGGAAGTATAAATTATAACACCATCTTAC 

-CAAATGGAGTGAAGTGCCATAAGTACAAACTTTCTTTTCATTAAGAGACAACTCACAATTATGTAAAAA 

GCAAATGGAGTGAAGTGCCATATGTACAAACTTTCTTTTCATTAAGAGATAACTCCCAATTATG^ 
GTGTGATTTATGCCCTACAGGAAGCCTTCAGAGTCTACCTCCCTATCCCAGCAT— CCCCGACTCCTTCC 

GTGTGATTTATGCCCTACAGGAAGCCCTCAGAGTCTACCTCCCGACCCCAGC 

CCAACTAATAAGGACCCCCCTTCAACCCAAATGGTCCAAAAGGAGATAGACAAAAGGGTAAACAGTGAAC 

CCAACTAATAAGGACCCCCCTTCAACCCAAATGGTCCAAAAGGAGATAGACAAAGGGG 
CAAAGAGTGCCAATATTCCCCAATTATGACCC-CTCCAAGCAGTGGGAGGAAGAGAATTCGGCCCAGCCA 

CAAAGAGTGCCAATATTACACGATTAT-ACTCGCTCCAAGCAGTGGGAGGA-GA-ATTT-GGCCCA 
GAGTGCATGTGCCTTTTTCTCTCCCAGACTTAAAGCAAATAAAAACAGACTTAGGTAAATTCTCAGATAA 

GCGTGCATGTACCTTTTTCTCTCTCAGATTTAAAGCAAATTAAAATAGACCTAGGTAAATTCT^ 

C C CTG ATGGC T AT AT TG ATGTTT T AC AAGGGT T AGG AC AATT C TTT G AT C T G AC AT GG AG AG AT AT AAT G 

CCCTGATGGCTATATTGATGTTTTACAAGGGTTAGGAC 

TCACTGCTAAATCAGACACTAACCCCAAATGAGAGAAGTGCCACCATAACTGCAGCCTGAGAGTTTGGCG 
TTACTGCTAAATCAGACACTAACCCCAAATGAAAAAACT 

ATCTCTGGTATCTCAGTCAGGTCAATGATAGGATGACAACAGAGGAAAGAGAATGATTCCCCACAGGCCA 

AACTCTGGTATCTCAGTCAGGTCAATGATAGGATGACAACAGATGAAAGAGAATGATTCC^ 
GCAGGCAGTTCCCAGTCTAGACCCTCATTGGGACACAGAATCAGAACATGGAGATTGGTGCTGCAGACAT 

GCAGGCAGTTCCCAGTGTAGACCCTCATTAGGACACAGAATCAGAACTTGGAGATTGGTGCCACAGA 
TTGCTAACTTGTGTGCTAGAAGGACTAAGGAAAACTAGGAAGAAGTCTATGAATTACTCAATGATGTCCA 

TTGCTAACTTGCGTGCTAGAAGGACTAAGGAAAACTAGGAAGAAGCCCATGAATTA^ 
CCATAACACAGGGAAGGGAAGAAAATCCTACTGCCTTTCTGGAGAGACTAAGGGAGGCATTGAGGAAGCG 

CTATAACACAGGGAAAGGAAGAAAATCCTACTGCCTTTC^ 

TGCCTCTCTGTCACCTGACTCTTCTGAAGGCCAACTAATCTTAAAGCGTAAGTTTATCACTCAGTCAGCT 
TACCTCCCTGTCACCTGACTCTATTAAAGGCCAACTAATCTTAAAGGATAAGTTT^ 

GC AG AC AT T AGAAAAAAAC TT C AAAAG TC T GC C GT AGGC C CGG AGC AAAAC TT AG AAAC C CT AT T G AAC T 

GC AG AGAT TAAGAAAAAAC TT CAAAAGT AT GC CT TAGGC C C AG AGC AAAAC TT AG AAAC C CT AC T G AAC T 
T GG C AAC CTCGGTTTT T TAT AAT AGAG AT C AGG AGG AGC AGGC GG AAC AGG AC AAAC GGG AT TAAAAAAA 

TGGCAACCTCAGTTTTTTATAATAGAGATCAGGAAGAGCAGG-G^ 

A GGCCACCGCTTTAGTCATGACCCTCAGGCAAGTGGACTTTGGAGGCTCTGGAAAAGGGAAAA 

AAAAAAAAGGTGACTGCTTTAGTCGTGGCCCTCAGGCAAATGGACTTTGGAGGCTCC 
GCTGGGCAAATTGAATGCCTAATAGGGCTTGCTTCCAGTGCGGTCTACAAGGACACTTTAAAAAAGATTG 

GCTGAGCAAATTGAATGCCTAACAGGGCTTGCTTCTAGTGTGGTCTACAAGGACACTTTAAA^ 

T CCAAG ? AGAAGTAAGCCGCCCCCT ^^ 

TCCAAGTAGAAACAAGCTGCCCCCTTGTCCATGCCCCTTATGTCAAGGGAATCACTG 

C C C AGGGG AC AAAGGT C C T C T G AGT C AG AAGC C AC T AAC C AG AT GAT C C AGC AGC AGG AC T G AGGGT GC C 

CCCAGGAGATGAA'GGTCCTCTGAGTCAGAAGCCACTAACCAGATAATCCAGCAGCAGGA 
TGGGGCAAGCGCCATCCCATGCCATCACCCTCACAGAGCCCTGGGTATGCTTGACCATTGAGGGCCAGGA 

CAGGGCAAGCGCCAGCCCATGCCATCACCCTCACAGAGCCTTC^ 

GGTT GTCTCCTGGACACTGGTGCGGTCTTCTTAGTCTTACTCTTCTGTCCCGGACAACTGTCCTCC 

GGTTCACTGTCTCTTGGACACTGGTATGGCCTTCTCAGTCTTACTCTCCT^ 
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01/ TAAATCCCCATGGCCCTCCCTTATCATATTTTTCT 

02 / TAAATCCCC-TGGCCCTCCCTTATCATATTTTTCT 

03/ TAAATCCCCATGGCCCTCCCTTATCATATTTTTCT 

04/ TAGATCCTCATGGCCCTCC-TTGTCATATTTTTTT 



01/ CTTTACTGTTCTTTTA-CCCTCTTTCACTCTCACTGCACCCCCTCCATGCCGCTGTATGACC 
02/CTTTACTGTTCTCTTACCCCCCTTTCACTCTCACTGCACCCCGTCCATGCCACTGCACCCCC 
03/CTTTACTGTTCTCTTA-CCCCCTTTCTCTCTCACTGCACCCCCTCCATGCTGCTGTACAACC 
04/CTTTACTGTTCTCTTA-CCCCCTTTCACTCTCACTGAACCCCCTCCATGCCACTGTACTACC 

01/AGT — ■ AGCTCCCCTTACCAAGAGTTTCTATGGAGAATGCAGCGT 

02/ GTCCATGCCCGTCTCATGCCAGTAGCTCCCCTTAGCAAGAGTTTCTATGGAGAATGCAGCGT 

03/AGC AGCTCCCCTTACCAAGAGTTTCTATGAAGAATGCGGCTT 

04-/AGT ■ AGCTCCCATTACCAAGAGCTTCTATGGACAATGCGGCTT* 

0 1 / CCCGGAAATATTGATGCCCCATCGTATAGGAGTCTTTCTAAGGGAACCCCCACCTTCACTGC 
02/CCCGGAAATATTGATGCCCCATTGTATAGGAGTTTATCTAAGGGAACCCCCACCTTCACTGC 

0 3 /CCCAGAAATATTGATGCCCCATCAAATAGGAGTTTACCTAAAGGAAACTCCACCTTCACTGC 
04 / CCTGGAAATATTGATGACCCATCGTATAGGAGTTTTTCTAAAGGAAACCCCATTTTCACCAC 

Ol/CCACACCCATATGCCCCGCAACTGCTATCACTCTGCCACTCTTTGCATGCATGCAAATACTC 

02 / CCACACCCATATGCCCCACAACTGCTATAACTCTGCCACTCTTTGCATGCATGCAAATACTC 
03/CCACACCCATATGCCCCACAACTGCTATAACTCTGCCACTCTTTGCATGCATGCAAATACTC 
04 /CCACACCTATATGACCC 

01 /ATTATTGGACAGGAAAAATGATTAATCCTAGTTGTCCTGGAGGACTTGGAGTCAGTGTCTGT 

02/ATTATTGGACAGGAAAAACGATTAATCCCAGTTGTCCTGGAGGACTTGGAG 

03/ ATTATTGGACAGGGAAAATGATTAATCCTAGTTGTCCTGGAAGACTTGGAGCCACTGTCTGT 
04/ _ . _ 

0 1 / T G G AC T T AC T T C ACC CAAAC T G G TAT G T C T GAT GGGG G T G GAG T T C AAG AT C AG G C AAG AG A 
02/ — GACTCACTTCACTCATACGAGTATGTCTGATGGGGGTGGAGTTCAAGATCAGGCAACAGA 
03/CGGACTTACTTCACCCATACTGGTATGTCT.GAGGGGGGTGGAGTTCAAGATCAGGCAAGAGA 
04/ — — 

0 1 / AAAAC AT GT AAAAGAAGT AAT CTC CG AACTC ACCCGGGT AC ATGGC AC CTGTAGCCCCT AC A 
02/ AAAACACATAAAGGAAGTAATCTCCCAACTGACCTGGGTACATAGCACCCCTGGCCCCTACA 
0 3 / AAAACATGTAAAGGAAGTAACCTCCCAACTGACCCGGGTACATAGCACCCCTAGCCCCTACA 
04 / — , 

01/AAGGACTAGATCTCTCAAAACTA^ 

02/ AAGGACTAGATCTCTCAAAACTACATGAAACCCTCCATACCCATACT.GGGCTGGTAAGCCTA ' 
03/AAGGAGTAGATCTCTTAAAACTACATGAAACCCTCCATACCCAT ACTTGCCTGGTAAGCGTA 

,04/—-/--- : — _^ — :__ 

01^T V TTAATACCACCCTCACTGGGCTCCATGAGGTCTCGGCCCAAAACCCTACTAACT 

02/ T^T T AAT AC CAC C GT G AC T GG G C T C CAT GAGG T C T C GGC C C AAAAC C C TAG T AAG T G T T G GAT 

0 3 / T T T AAT AC CAC C CTC AC T GG G C T C CAT GAG GTCTCGGT C C AAAAC C G T AC T AAC T G TTG G T T 

'W^ v >v ' c -- v ., ■■ , ( ;; ' vX j - , , \ 

Ol/ATGCCTCCCCCTGi^TTCAGGCCATATGTTTC 

o 2 /gtgcctccccctgcagtttaggccatacatttcaat^ 

03/ GTGCCTCCCCCTGTATTTCAGGCCATGCATTTCAATCCCTGTACCTG 

0 4 / T G CAC T T C AG G CC AT AC ATT T C AAT GCCTG TA 
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01/TCAGCACAGAAATAAACACCACTTCCGTTTTAGTAGGACCTCTTGTTTCCAATCTGGAAATA 

02/TCAGCACAGAAATAAACACCACTTCTGTTTTAGTAGGTCCTC TTTCCAATCTGGAAATA 

03/ AC AGC AC AGAAAT AAAC AC C AC T T CCG T T T T AGT AGG AC CTCTTGTTTC C AAT C T G G AAAT A 



0 1 / ACCCATACCTCAAACCTCACCTGTGTAAAATTTAGCAATACTACATACACAACCAACTCCCA 

0 2 / ACCCATACCTCAAACCTCACCTGTGTAAAATTTAGCAATACTATAGACACAGCCAACTCCCA 
03/ACCCATACCTCAAACCTCACCTGTGTAAAATTTAGCAATACTGTAGACACAACCAACTCCCA 
04/ 

0 1 /ATGCATCAGGTGGGTAACTCCTCCCACAC AAAT AGTCTGCCTACCCTC AGG AATATTTTTTG 
02/ATGCATCAGGTGGGTAACTCCTCCCACACGAATAGTCTGCCTACCCTCAGGAATATTTTTTG 
03/ATGCATCAGGTGGGTAACTCCTCCCACACGAATAGTCTGCCTACCCTCAGGAATATTTTTTG 
04/ 

0 1/TCTGTGGTACCTCAGCCTATCGTTGTTTGAATGGCTCTTCAGAATCTATGTGCTTCCTCTCA 
02/TCTGTGGTACCTCAGCCTATCATTGTTTGAATGGCTCTTCAGAATCTGTGTGCTTCCTCTCA 
03/TCTGTGGTACCTTAGCCTATCGTTGTTTGAATGGCTCTTCAGAATCTATGTGCTTCCTCTCA 
04/ 

01/TTCTTAGTGCCCCCTATGACCATCTACACTGAACAAGATTTATACAGTTATGTCATATCTAA 

0 2 / TTCTTAGTGGCCCCTATGCCCATCTACACTGAACAAGATTTATACAATCATGTCATACCTAA 
03/TTCTTAGTGCCCCC-ATGACCATTTACACTGAACAAGATTTATACAATTATGTTGTACCTAA 
04/ : 

0 1 / GCCCCGCAACAAAAGAGTACCCATTCTTCCTTTTGTTATAGGAGCAGGAGTGCTAGGTGCAC 
02/GCCCCGCAACAAAAGAGTACCCATTCTTCCTTTTGTTATTGGAGCAGGAGTGCTAGGCGGAG 

0 3 /GCCCCACAACAAAAGAGTACTCATTCTTCCTTTTGTTATCGGAGCAGGAGTGCTAGGTGGAC 
04/ 

0 1 / TAGGTACTGGCATTGGCGGTATCACAACCTCTACTCAGTTCTACTACAAACTATCTCAAGAA 
02/TAGCTACTGGCATTGGCGGTATCACAACCTCTACTCAGTTCTACTACAAACTGTCTCAAGAA 
03/ TAGGTTCTGGCATTGGCGGTACCACAACCTCTACTCAGTTCTACTACAAACTATCTCAAGAA 
04/ 

01/CTAAATGGGGACATGGAACGGGTCGCCGACTCCCTGGTCACCTTGCAAGATCAACTTAACTC 
02/CTTAAAGGTGACATGGAATGGGTCGCTGATACCCTGGTCACCTTGCAAGATCAACTTAACTC 
0 3/CTCAATGGTGACATGGAATGGGTTGCCGACTCCCTGGTCACCTTGCAAGATCAACTTAACTT 
04/ 

01/CCTAGCAGCAGTAGTCCTTCAAAATCGAAGAGCTTTAGACTTGCTAACCGCTGAAAGAGGGG 
02/CCTAGCAGCAGTAGTCCTTCAAAATCGAAGAGCTTTAGACTTGCTAACCGCGGAAAGCGGGG 

0 3/CCTAGCATCAGTAGTCCTTCAAAATTGAAGAGCTTTAGACTTGCTAACCTCTGAAAGAGGGG 
04/ 

01/GAACCTGTTTATTTTTAGGGGAAGAATGCTGTTATTATGTT 

02/GAACCTTTTTATTTTTAGAGGAAAAATGCTGTTGTTATGTT 

03/GAAGCTGTTTATTTTTAGGGGAAGAATGTTGTTATTATGTTATTTTAGCGGAAGAATGTTGT 
04/ ' 

0 1 / AATCAATCCGGAATCGTCACTGAGAAAGTTAAAGAAATTCGAGATCGAATACA 

02/ AAT C AAT C C G G AAT CAT C AC C G AG AAAG T T AAAG AAAT T C AAG G T C G AAT AT A 

03/TATTATGTTAATCAATCCTGAATTGTCACAGAGAAAGTTGAAGAAATTCGAGATTGAATACA 
04/ 

01/ACGTAGAGCAGAGGAGCTTCGAAA-CACTGGACCCTGGGGCCTCCTCAGCCAATGGATGCCCT 

02 / ACGTAGAGCAAAGGAGCTGCAAAA-CACTGGACCCTGGGGCCTCCTCAGCCAATGGATGCCCT 
0 3 / ACGTAGAACAGAGGAGCTTCAAAAACACCAGACCCTGGGGCCTCCTCAGCCAATGGATGCCCT 
04/ 
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Ol/GGATTCTCCCCTTCTTAGGACCTCTAGCAGCTATAATATTGCTACTCCTCTTTGGACCCTGTA 
02/GGATTCTCCCCTTCTTAGGACCTCTAGCAGCTATAATATTGTTACTCCTCTTTGGACCCTGTA 
03/GGATTCTCCCCTTCTTAGGATCTCTAGCAGCTCTAATATTGATACTCCTCTTTGGACGCTGTA 
04/ — 

0 1 /TCTTTAACCTCCTTGTTAACTTTGTCTCTTCCAGAATCGAAGCTGTAAAACTA 

02/TCTTTAACCTCCTTGTTAAGTTTGTCTTTTCCAGAATCGAAGCAGTAAAACTACAAATCGTTC 
03/TCTTTAACCTCCTTGTTAAGTTtGTCTCTTCCAGAATCAAAGTTGTAAAGCTACAAATCGTTC 
04/TCTTTAACCTCCTTGTTAAGCTTGTCTCTTGCAGAATCGAAGCTGTAAAACTACAAATGCTTG 

01/--CAAATGGAGCCCAAGATGCAGTCCAAGACTAAGATCTAGCGCAGACCCCTGGAGCGGCCTG 
02/TTCAAATGGAGCCCCAGATGCAGTGCATGAGTAAAATCTACCACGGACCGCTGGACCGGGCTG 

0 3 / TTGAAATGGAACCCCAGATGAAGTCCATGACTAAGATCTACCGTGGACCCCTGGACCGGCCTA 
04/TTAAAATAGAGCCCCAGATGCAGTCCATGGCTAAGATCTACCACGGACCCCTGGACCGGCCTG; 

01/CTAGCCCACGATCTGATGTTAATGACATCAAAGGCACCCCTCCTGAGGAAATCTCAGCTGCAC 
02/CTAGCCCATGCTCTGATGTTAATGACATCAAAGGCACCCCTCCCGAGGAAATCTCAACt.GCAC 
03/CTAGCCGATGCTCCAATTGTAATGATATCGAACGCACCCCTCCCGAGGAAATCTCAACTGCAC 
04/CTAGCCCATGCTCTGATGTTGATGACATTGAAGGCACGGCTTCCGAGGAAATCTCAACTGCAC 

0 1 /AACCTCTACTACGCCCCAATTCAGCAGGAAGCAG'TTAGAGCGGTCGTCGGCCAACCTCCCC 
02/AACCTCTACTACGCCCCAATTCAGCAGGAAGCAGTTAGAGTGGTTGTTGGCCAACCTCCCC 
03/AACCCCTACTATGCCCCAATTCCGCAGGAAGCAGTTAGACTGGTCGTCAGCCAACCTCCCC 

0 4 /GACCCCTACTACACCCCAATTTAGCGGGAAGCAATTAGAGCAGCCTATGGCCACCTCCCC 
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CTTCCCCAACTAATAAGGACCCCCCTTTCAACCCAAACAGTCCAAAAGGACATAGACAAAGGA 3 

CTTCCCCAACTAATAAGGACCCCCCTTTCAACCCAAACAGTCCAAAAGGACATAGACAAAGGA 4 

CTTCCCCAACTAATAAGGACCCCCC-TTCAACCCAAATGGTCCAAAAGGAGATAGACAAAAGG 5 

CTTCTCCAACTAATAAGGACCCCCC-TTCAACCCAAATGGTCCAAAAGGAGATAGACAAAGGG 6 

CTTCCCCAAATAATAAGAACCCCCC-TTCAACCCAAACGGTCCAAAAGGAGATAGACAAAGGG 7 

GTAAACAATGAACCAAAGAGTGCCAATATTCCCTGGTTATGCACCCTCCAAGCGGTGGGAG — 3 

GTAAACAATGAACCAAAGAGTGCCAATATTCCCTGGTTATGCACCCTCCAAGCGGTGGGAG — 4 

GTAAACAGTGAACCAAAGAGTGCCAATATTCCCCAATTATGACCCCTCCAAGCAGTGGGAGGA 5 

GTAAACAATGAACCAAAGAGTGCCAATATTACACGATTATACTCGCTCCAAGCAGTGGGAG — 6 

GTAAACAACTAACCAAAGAATGCCAATATTCCCCGATTATGCCCCCTCCAAGCGGTGGGAG — 7 

A-AGAATTCGGCCCAGCCAGAGTGCATGTACCTTTTTCTCTCTCAC-ACTTGAAGCAAATTAAA 3 

A-AGAATTCGGCCCAGCCAGAGTGCATGTACCTTTTTCTCTCTCAC-ACTTGAAGCAAATTAAA 4 

AGAGAATTCGGCCCAGCCAGAGTGCATGTGCCTTTTTCTCTCCCAG-ACTTAAAGCAAATAAAA 5 

-GAGAATTTGGCCCAGCCAGCGTGCATGTACCTTTTTCTCTCTCAG-ATTTAAAGCAAATTAAA 6 

-GAGAATTCGGCCCAGCCAGAGTGCACGTACCTTTTTCTCTCTCTAGACTTTAAA TTAAA 7 

ATAGACNTAGGTNAATTNTCAGATAGCCCTGATGGYTATATTGATGTTTTACAAGGATTAGGA 3 

ATAGACXTAGGTXAATTXTCAGATAGCCCTGATGGXTATATTGATGTTTTACAAGGATTAGGA 4 

AC AG AC T TAG G T AAAT T C T C AG AT AACC C T GAT G GC T AT AT T GAT G T T T T AC AAG GG T TAG G A 5 

ATAGACCTAGGTAAATTCTCAGATAACCCTGATGGCTATATTGATGTTTTACAAGGGTTAGGA 6 

ATAGACCTAGGTAAATTCTCAGATAACCCTAATGGCTATATTGATGTTTTACAAGGTTTAGGA 7 

TTCCTGAGTTCTTGCACTAACCTCAAAT 1 

CAATCCTTTGATCTGACATGGAGAGATATAATATTACTGCTAAATCAGACGCTAACCTCAAAT 3 

C AAT C C T T T GAT C T G AC AT G GAG AG AT AT AAT AT T AC T GCT AAAT C AG AC G C T AAC C T C AAAT 4 

CAATTCTTTGATCTGACATGGAGAGATATAATGTCACTGCTAAATCAGACACTAACCCCAAAT 5 

C AAT C C T T T GAT C T G AC AT GG AG AG AT AT AAT G T T AC T G CT AAAT C AG AC AC T AAC C C C AAAT 6 

CAATCCTTTGATCTGATATGGAGAGATATAATGTTACTGCTAAATCAGACACTAACCCCAAAT 7 

GAGAGAAGTGCCGCCATAACTGCAACCCAAGAGTTTGGCGATCCCTGGTATCTCAGTCAGGTC 1 

GAGAGAAGTGCTGCCATAACTGGAGCCCGAGAGTTTGGCAATCTCTGGTATCTCAGTCAGGTC 3 

GAGAGAAGTGCTGCCATAACTGGAGCCCGAGAGTTTGGCAATCTCTGGTATCTCAGTCAGGTC 4 

GAGAGAAGTGCCACCATAACTGCAGCCTGAGAGTTTGGCGATCTCTGGTATCTCAGTCAGGTC 5 

GAAAAAAGTGCTGCCATAACAGCAGCCTGAGAGTTTGGCGAACTCTGGTATCTCAGTCAGGTC 6 

GACAGAAGTGTCGCCGTAACTGGAGCCCGAGAGTTTGGCAATCTCTGGTATCTCAGTCAGGTC 7 

AATGACAGGATGACAACAGAGGAAAGATAATGATTCCCCACAGGCCAGCAGGCAGTTCCCAGT 1 

AATGATAGGATGACAACGGAGGAAAGAGAACGATTCCCCACAGGGCAGCAGGCAGTTCCCAGT 3 

AATGATAGGATGACAACGGAGGAAAGAGAACGATTCCCCACAGGGCAGCAGGCAGTTCCCAGT 4 

AATGATAGGATGACAACAGAGGAAAGAGAATGATTCCCCACAGGCCAGCAGGCAGTTCCCAGT 5 

AATGATAGGATGACAACAGATGAAAGAGAATGATTCCCCACAGGCCAGCAGGCAGTTCCCAGT 6 

AATGATAGGATGACAACAGAGGAAAGAGAACGATTCCCCACAGGCCAGCAGGCAGTTCCCAGT 7 

GTAGACCCTCATTAGGACACAGAATCAGAACATGGAGATTGGTGCCGCAGACATTTGCTAACT 1 

AACT 2 

GTAGCTCCTCATTGGGACACAGAATCAGAACATGGAGATTGGTGCCGCAGACATTTACTAACT 3 

GTAGCTCCTCATTGGGACACAGAATCAGAACATGGAGATTGGTGCCGCAGACATTT 4 

CTAGACCCTCATTGGGACACAGAATCAGAACATGGAGATTGGTGCTGCAGACATTTGCTAACT 5 

GTAGACCCTCATTAGGACACAGAATCAGAACTTGGAGATTGGTGCCACAGACATTTGCTAACT 6 

GTAGACCCTCACTGGGACACAGAATCAGAACATGGAGATTGGTGCCGCAGACATTTGCTAACT 7 
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TGCGTGC TAG AAGG AC TAAGGAAAACTAGGAAG A TATGAATTATTCAATGATGTCCACT 1 

TGCGTGCTAGAAGGACTAAGGAAAACTAGGAAGA C TAT G AAT TAT T C AAT GAT G T C C AC T 2 

T GC G T GC T AG AAGGAC TAAGGAAAACTAGGAAG A CTATGAATTATTCAATGATGTCCACT 3 

T GT G T G C TAG AAGG AC T AAGG AAAAC T AGG AAG AAG T C TAT G AAT T AC T C AAT GAT G T C C AC A 5 

T G C G T G C TAG AAGG AC T AAGG AAAAC T AGGAAG AAG C C CAT G AAT TAT T C AAT GAT G T C C C C T 6 

TGCGTGCTAGAAGGACTAAGGAAAACTAGAAAGAAGCCTGTGAGTTATTCAATGATGTCCACT 7 

ATAACACAGGGGAAAGGAAGAAAATCCTACTGCCTTTCTGGAGAGACTAAGGGAGGCATTGAG 1 

AT AAC AC AGG G GAAAGG AAG AAAAT C C T AC TGCCTTTCTG G AGAG AC T AAG GG AG GC AT T GAG 2 

ATAACACAGGGGAAAGGAAGAAAATCCTACTGCCTTTCTGGAGAGACTAAGGGAGGCATTGAG 3 

ATAACACAGGG-AAGGGAAGAAAATCCTACTGCCTTTCTGGAGAGACTAAGGGAGGCATTGAG 5 

ATAACACAGGG-AAAGGAAGAAAATCCTACTGCCTTTCTGGAGAGACTAAGGGAAGGATTGAG - 6 

ATAACACAGGG-AAAGGAAGAAAATCCTACCGCCTTTCTGGAGTGACTAACGGAGGCATTGAG 7 

G AAG CAT AC C AGGCAAGTGGACATTGGAGGCTCTGGAAAAGGGAAAAGTTGGGAAAAGTA 1 

GAAGCATACC — -AGGCAAGTGGACATTGGAGGCTCTGGAAAAGGGAAAAGTTGGGCAAATTG 2 

GAAGCATACC AGGCAAGTGGACATTGGAGGCTCTGGAAAAGGGAAAAGTTGGGCAAATTG 3 

GAAGCGTGCC232AGGCAAGTGGACTTTGGAGGCTCTGGAAAAGGGAAAAGCTGGGCAAATTG 5 

GAAGCATACC 2 3 8 AGGCAAATGGACTTTGGAGGCTCCAGAAAAGGGAAAAGCTGAGCAAATTG 6 

G AAGC AT ACC2 3 3 AG GC AAGC GG AC TTTGGAGGCACTGGAAAAGGGAAAAGCT AG GCAAATC A 7 

TATGTCTAATAGGGCTTGCTTCCAGTGTGGTCTACAAGGACACTTTAAAAAAGATTGTCC-AA 1 

AATGCCTAATAGGGCTTGCTTCCAGTGCAGTCTACAAGGACGCTTTAGAAAAGATTGTCC-AA 2 

AATGCCTAA 3 

AATGCCTAATAGGGCTTGCTTCCAGTGCGGTCTACAAGGACACTTTAAAAAAGATTGTCC-AA 5 

AATGCCTAACAGGGCTTGCTTCTAGTGTGGTCTACAAGGACACTTTAAAAAAGATTGTCC-AA 6 

AATGCCTAATAGGGTTTGCTTCCAGTGCGGTCTACAAGGACACTTTAAAAAAGATTGTCCAAA 7 

-TAGAAATAAGCCACCACCTCGTCCATGCCCCTTATGTCAAGGGAATCACTGGAAGGCCCACT 1 

GTAGAAATAAGCCGCCCC-TCGTCCATGCCCCTTATGTCAAGGGAATCACTGGAAGGCCTACT 2 

GTAGAAGTAAGCCGCCCCCTCGTCCATGCCCCTTATTTCAAGGGAATCACTGGAAGGCCCACT ' 5 

GT AGAAAC AAGC TGCCCCCTTGTCCATGCCCCTTATGTCAAGGGAATCACTGGAAGGCCC ACT 6 

-TAGAAATAAGCCGCCCCCTCGTCCATGCACCTCGTGTCAAGGGAATCACTGTAAGGCCCACT 7 

GCCCCAGGGGATGAAGGTCCTCTGAGTCAGAAGCCACTAACCAGATGA .1 

GCCCCAGGGGACGAAGGTCCTCTGAGTCAGAAGCCACTAACCTGATGA 2 

GCCCC AGGGG AC AAAGGTCCTCTGAGTC AG AAGCC ACT AACCAGATGA 5 

GCCCC AGG AGATGAAGGTCCTCTGAGTCAGAAGCCACTAACC AG AT AA V 6 

GCCCCAGGGGACG T AGGTCCTCTG AG TCAGAAGCCACT AACCAGATGA ,/ ; 7 
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RTPLSTQTVQKDIDKGVNNEPKSANIPW SDSPDG 
KDPPSTQMVQKEIDKRVNSEPKSANIPQLPLQAVGGR 

YIDVLQGLGQFFDLTWRDIMSLLNQTLTPNERSATIT^ 
AVPSVAPHWDTESEHGDWCRRHLLTCVLEGLRKTRK TMNYSMMSTITQGK 
AVPSLDPHWDTESEHGDWCCRHLLTCVLEGLRKTRKKSMNYSMMSTITQGR 
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GTCTACCTAGCCA-AGGCATATTCTTCTTATGTGGAACATCAACCTATATCTGCCTCCCCACTAACTGGA 

GTCTGCCTACCCTCAGGAATATTTTTTGTCTGTGGTACCTCAGCCTATCGTTGTTTGA — A-TGGCTCTT 
CAGGCACC-TGAACCTTAGTCT — TTCTAAGTCCCAAC-ATTAACATTGCCCCAGGAAATCAGACCC-TA 

CAGAATCTATGTGC-TTCCTCTCATTCTTAGTGCCCCCTATGACCATCTACACTGAACA — AGATTTATA 
TTGGTACCTGTCAAAGCTAAAGTCCCGTCAGTGCAGAGCCATACAACTAATATCCCTAT-TTATAGGGTT 

CAGTTA — TGTCATATCTAA-GCCCCGCAACAAAAGAGT-ACCCAT-TC-T-TCCTTTTGTTATAGGAGC 
AGGAATGGCTAC-TGCTAC-AGGAACTGGAATAGCCGGTTTATCTACTTC-ATT-A-TCCTACTACCATA 

AGGAGTG-CTAGGTGC-ACTAGGTACTGGCATTGGCGGTATCACAACCTCTACTCAGTTCTACTACAA-A 
CAC T C T C AAAG AAT T T C T C AG AC AG T T T GC AAG AAAT AAT G AAAT C T AT T C T T AC T T T AC AAT C C C AA- T 

CTATCTCAA-GAACTAAATGGGGACATGGAACGGGTCGCCGAC-TCCCTGGTCACCTTGCAAGATCAACT. 
TAGACTCTTTGGCAGCAAT-GACTCTCCAAAACCGCCGAGGCCCACACCTCCTCACTGCTGAGAAAGGAG 



TA-ACTCCCTAGCAGCAGTAGTC-CTTCAAAATCGAAGAGCTTTAGACTTGCTAACCGCTGAAAGAGGGG 

GACTCTGCACCTTCTTAGGGGAAGAGTGTTGTTTTTACACTAACCAGTCAGGGATAGT-AC-GAGAT-GC 

• ■ ........... . . . . . . . . . , . . .. . . .... . 

** ... ........... .... ... ... .. .. .. . . .... . 

G AAC C T G T T TAT T T T T AGGG G AAG AATG C T G T TAT TAT G T T AAT C AAT C C GG AAT C G T C AC T GAG AAAG T 

CACCTGGCATTT-ACAGGAAAGGGCTTCTGATATCAGACAATGCCTTTCAAACTCTTATACCAA CCT 

TAAA-GAAATTCGAGATCGAATA-CAACGTAGAGCAGAGGA-GC-TTCGAAACACTGGACCCTGGGGCCT 
CTGGAGT TGGGCAACATGGCTTCTTCCATTTCTAGGTCCCATGGCAGCCATCTTGCTGTTACTCACC 



CCTCAGCCAATGGATGCCCTGGATTCTCCCCTTCTTAGGACCTCTAGCAGCTATAATATTGCTACTCCTC 
TTTGGGCCCTGTATTTTTAAGCTTCTTGTCAAATTTGTTTCCTCTAGGATCGAAGCCATCAAGCTACAGA 

TTTGGACCCTGTATCTTTAACCTCCTTGTTAACTTTGTCTCTTCCAGAATCGAAGC--T G-TAAA-A 

TGGTCTTACAAATGGAACCCCAAATG-AGTTCAACTAACAACTTCTACCAAGGACCCCTGGAACGATCCA 

CT-ACAAATGGAGCCCAAGATGCAGTCCAAG-ACTAAGATCTACCGCAGACCCCTGGACCGGCCTG 

CTGGC — ACT-TCC-AC-T-A— GCC-T-AGAGATTCCCCTCTGGAAGACA-CTACAACTGCAGGGCCCC 



CTAGCCCACGATCTGATGTTAATGACATCAAAGGCACCCCTCCTGAGGAAATCT-CAGCTGCACAACCTC 
TTCTTTGCCCCTATCCAGCAGGAAGTAGCTAGAGCGGTCATCGGCCAAATTCCC-AACAGCAGTTGGGGT 

TACTACGCCCCAATTCAGCAGGAAGCAGTTAGAGCGGTCGTCGGCCAACCTCCCCAACAGCACTTAGGTT 
GTCCTGTTTAGAGGGGGG 

TTCCTGTTGAGATGGGGG " / 

- ■ . ■ . - - y% v.. •// 
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ACCTTGCAAGATCAACTTA-ACTCCCTAGCAGCAGT-AGTCCTTCAAAATCGAAGAGCTTTAGACTTGCT 

ACTTTACAATCCCAAATAAGACTCTTTGGCAGCAGTGACTC - TCCAA^CCGCTGAGGCCTAGATCTCCT 
AACCGCTGAAAGAGGGGGAACCTGTTTATTTrTAGGGGAAGAATGCTGTTATTATGTTAAT^ 

CACTGCTGAAAAAGGAGGACTCTGCACCTTCTTAC^GGAAGAGTGTTGTT 

ATCGTCACTGAGAAAGTTAAAGAAATTCGAGATCGAATA- - CAACGTAGAGCAGAGGAGCTTCGAAACAC 

ATAG - CA- TGAGAT - GCCACCCAGCGTTTACAG - GAAAAGGCTTCTGAAAT(^GACGCCTTTC - AAATTC 
TGGACCCTGGGGCCTCCTCAGCCAATGGATGCCCTGGATTCTCCCCTTCTTAGGACCTCTAGCAGCTATA 

TTATACCAA - - - CCTCTGGAGT - - -TGGGCAACATC^CTTCTCCCCTTTCTAGGTCC 

ATATTGCTACTCCTCTTTGGACCCTGTATCTTTAACCTCCTTGTTAACTTTGTCTCTTCCAGAATCGAAG 
TTGCTGTTACTCGCCTTTGGGCCCCGTATTTTTAA 

C ~~ T G ~ TAAA " A CT " ACAAATGGAGCCCAAGATGCAGTCCAAG - ACTAAGATCTACCGCAGAC 

^CCATCAAGCTACAGATGGTCTTACAAATCGAACCCCAAA 

CCCTGGACCGGCCTGCTAGCCCACGATCTGATGTTAATGACATCAAAG- GCACCCCTCCTGA- GGAAATC 

CCGTGGACTGACCAGCTGGC - - ACT - TCCCCTG GCC - T - AGAGAGTTCCCCTC - TGAAGGACA - C 

T-CAGCTGCACAACCTCTACTACGCCCCAATTCAGCAGGAAGCAGTTAGAGCGGTCGTCGGCCAACCTCC 

TACAACTGCAAAGCCCCTTCTTCGCCCCTATCCAGCAGGAAGTAGCTAGA 
CCAACAGCACTTAGGTTTTCCTGTTGAGATGGGGG 



C - AACAGCAGTTGGGGTGTCCTGTTGAT - TGAGGG 
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GTCTGCCTACCCTGAGGAATATTTTTTGTCTGTGGTACCTCAGCCTATCGTTGTTTGA- - A- TGGCTCTT 



GTCTACCTAGCCA-AGGCATATTCTTCTTATGTGGAACATCAACCTATATCTGCCTCCCCACTAACTGGA 
CAGAATCTATGTGG - TTCCTCTCATTCTTAGTGCCCCCTATGACCATCTACACTGAACA - - AGATTTATA 



C AGGC ACC - TGAACCTTAGTCT - - TTCTAAGTCCCAAC - ATTAACATTGCCCCAGGAAATC AG ACCC - TA 
CAGTTA- - TGTCATATCTAA- GCCCCGCAACAAAAGAGT - ACCCAT - TC - T - TCCTTTTGTTATAGGAGC 



TTGGTACCTGTCAAAGCTAAAGTCCCGTCAGTGCAGAGCCATACAACTAATATCCCTAT - TTATAGGGTT 
AGGAGTG - CTAGGTGC - ACTAGGTACTGGCATTGGCGGTATCACAACCTCTACTCAGTTCTACTACAA - A 

AGGAATGGGTAC - TGCTAC - AGG AACTGGAATAGCCGGTTTATCTACTTC - ATT - A - TC CT ACTACCATA 
CTATCTCAA- GAACTAAATGGGGACATGGAACGGGTCGCCGAC - TCCCTGGTCACCTTGCAAGATCAACT 



CACTCTCAAAGAATTTCTCAGACAGTTTGCAAGAAATAATGAAATCTATTCTTACTTTACAATCCCAA-T 
TA- ACTCCCTAGCAGCAGT - AGTCCTTCAAAATCGAAGAGCTTTAGACTTGCTAACCGCTGAAAGAGGGG 



TAGACTCTTTGGCAGCAATGACTC - TCCAAAACCGCCGAGGCCCACACCTCCTCACTGCTGAGAAAGGAG 
GAACCTGTTTATTTTTAGGGGAAGAATGCTGTTATTATGTTAATCAATCCGGAATCGTCACTGAGAAAGT 



GACTCTGCACCTTCTTAGGGGAAGAGTGTTGTTTTTACACTAACCAGTCAGGGATAGT - AC - GAGAT - GC 
TAAA- GAAATTCGAGATCGAATA- CAACGTAGAGCAGAGGA - GC - TTCGAAACACTGGACCCTGGGGCCT 

CACCTGGCATTT - ACAGGAAAGGGCTTCTGATATCAGACAATGCCTTTCAAACTCTTATACCAA CCT 

CCTCAGCCAATGGATGCCCTGGATTCTCCCCTTCTTAGGACCTCTAGCAGCTATAATATTGCTACTCCTC 

CTGGAGT TGGGCAACATGGCTTCTTCCATTTCTAGGTCCCATGGCAGCCATCTTGCTGTTACTCACC 

TTTGGACCCTGTATCTTTAACCTCCTTGTTAACTTTGTCTCTTCCAGAATCGAAGC - - T G- TAAA- A 

TTTGGGCCCTGTATTTTTAAGCTTCTTGTCAAATTTGTTTCCTCTAGGATCGAAGCCATCAAGCTACAGA 
CT - ACAAATGGAGCCCAAGATGCAGTCCAAG - ACTAAGATCTACCGCAGACCCCTGGACCGGCCTG 

TGGTCTTACAAATGGAACCCCAAATG-AGTTCAACTAACAACTTCTACCAAGGACCCCTGGAACGATCCA 
CTAGCCCACGATCTGATGTTAATGACATCAAAGGCACCCCTCCTGAGGAAATCT - CAGCTGCACAACCTC 



CTGGC - - ACT - TCC - AC - T - A- - GCC - T - AGAGATTCCCCTCTGGAAGACA- CTACAACTGCAGGGCCCC 
TACTACGCCCCAATTCAGCAGGAAGCAGTTAGAGCGGTCGTCGGCCAACCTCCCCAACAGCACTTAGGTT 

TTCTTTGCCCCTATCCAGCAGGAAGTAGCTAGAGCGGTCATCGGCCAAATTCCC-AACAGCAGTTGGGGT 
TTCCTGTTGAGATGGGGG / / 

GTCCTGTTTAGAGGGGGG ; ^ , 
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